Grande consulta do Google com R

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Consulta extremamente rápida ao banco de dados com a API R.

Fonte

O que é o Google Big Query?

O Big Query é um serviço de armazenamento de dados em nuvem de alto desempenho, iniciado em 2011. Você pode gerenciá-lo no Google Cloud Console e consultar o armazenamento com comandos SQL padrão no console bq ou na API. É fácil de configurar, balanças automáticas e há uma variedade de conectores estabelecidos para o Google e outros serviços. Neste artigo, mostrarei as vantagens de trabalhar com o Big Query e como usar a API do R e criar consultas com funções dplyr.

Quais são as vantagens do Big Query?

O Google Big Query tem algumas vantagens em comparação com outros armazenamentos de dados na nuvem. Outras tecnologias serão comparáveis ​​ou até melhores, mas a combinação de todas as vantagens e principalmente a integração do Google é o que torna o Big Query realmente excelente. As vantagens são:

  • Velocidades de consulta extremamente rápidas: A BQ obteve resultados comparativos semelhantes a outras tecnologias modernas de banco de dados. O BQ também foi comparado a outras soluções de Data Warehouse que possuem recursos semelhantes, como Amazon Redshift, Snowflake, Microsoft Azure e Presto, e todos apresentaram desempenho e preços mais ou menos semelhantes.
O Big Query mostra um desempenho excepcional com consultas sem as instruções GROUP BY (Q1) e apresenta desempenho significativamente pior com as instruções GROUP BY (Q2-Q3). Com muitos JOINs grandes e muitos GROUP BYs (Q4), ele atua no meio das outras tecnologias testadas. Fonte
A consulta Biq realmente brilha com o desempenho em consultas simultâneas. O tempo de consulta permanece constante em comparação com as outras tecnologias devido ao rápido dimensionamento automático. Fonte
  • Custos baixos: A BQ tem custos semelhantes a outras soluções de big data warehouse. Atualmente, os custos são de 0,02 $ / GB por mês de armazenamento e 5 $ / TB de consulta de dados. 10 GB de armazenamento por mês são gratuitos e 1 TB por mês, consulta de dados. Muitas operações como por exemplo carregamento de dados, cópia, exportação, exclusão e consultas com falha são gratuitas. Além disso, há cache de consulta, você não precisa pagar se executar uma consulta novamente nos mesmos dados inalterados. Também existem preços fixos disponíveis.
  • Fácil integração com os serviços do Google: Dados de Google Analytics 360 pode ser facilmente armazenado no BQ. Essa é uma grande vantagem, pois o Google Analytics tem um limite de linhas armazenadas e permite apenas relatórios com dados de amostra. Você pode obter uma jornada mais detalhada do cliente e combinar todas as dimensões com todas as métricas se armazenar os dados do Analytics no BQ, pois poderá acessar todos os dados de rastreamento. Além disso, os conjuntos de dados no armazenamento do Google Cloud e no Google Drive podem ser consultados via BQ sem importar manualmente o conjunto de dados.
  • Fácil integração com outras ferramentas: A BQ possui seu próprio conjunto de aprendizado de máquina com o mecanismo Big Query ML, que permite importar modelos de fluxo tensor para previsão. Também existe um mecanismo de BI da BQ, mas ambos ainda não me são particularmente úteis, pois as funcionalidades são limitadas. Muitos serviços, como o Tableau, o Qlik ou o Looker, possuem conectores ao BQ.
  • Gerenciamento de No-Ops: Nenhum conhecimento prévio em gerenciamento de banco de dados é necessário para configurar o BQ e gerenciar a segurança e a recuperação.
  • Conjuntos de dados públicos: Você tem uma boa seleção de dados publicamente disponíveis no BQ, alguns dos conjuntos de dados são atualizados constantemente!
Leia Também  U é para truque útil

Usar grande consulta com R

Ative o Big Query e obtenha suas credenciais

  1. Acesse o Google Cloud Platform e faça login com sua conta do Google. No canto superior esquerdo, vá para “Escolher projeto” e inicie um novo projeto. Se você for no painel inicial para “Ir para a visão geral das APIs”, verá as APIs ativadas do Google Cloud Service. “BigQuery API” e “BigQuery Storage API” devem ser ativadas por padrão para todos os novos projetos.
APIs ativadas para um novo projeto do Google Cloud.

2. Obtenha sua chave de API conforme descrito pelo pacote gargle R aqui. Em resumo, acesse a seção Credenciais no Google Cloud Platform no painel mostrado acima e crie credenciais> chave da API. Você pode renomear sua chave de API e restringi-la a apenas determinadas APIs como “API do BigQuery”. Se você precisar acessar o aplicativo no BQ, precisará de um token de conta de serviço que possa ser baixado como JSON.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Consultando com R

Para consultar o BQ, usaremos a bigrquery da biblioteca R. A outra biblioteca R de destaque para o BQ é o bigQueryR, que, ao contrário do bigrquery, depende da biblioteca googleAuthR, que o torna mais compatível com o Shiny e outros pacotes.

Primeiro, obtemos as bibliotecas e nos autenticamos com nossa chave de API criada ou com o token da conta de serviço baixado JSON.

Agora podemos começar a consultar nossos dados de Big Query ou conjuntos de dados públicos. Consultaremos o conjunto de dados de qualidade do ar em tempo real do openAQ. Este é um projeto de código aberto que fornece dados em tempo real (se você estender a definição de “tempo real) de 5490 estações de medição de qualidade do ar em todo o mundo, o que é incrível! Você pode ver o conjunto de dados e uma breve descrição no Big Query aqui se estiver conectado ao Google. Para encontrar conjuntos de dados abertos no Cloud Console, role para baixo no menu esquerdo. Lá, você deverá ver “Big Query” sob o cabeçalho “Big Data”. Se você for para “+ Adicionar dados”, poderá navegar nos conjuntos de dados públicos.

Leia Também  Verasity se une à Tokeny para a OIC

Vamos envolver a API bigrquery com DBI para poder usá-la com os verbos dplyr, no entanto, o pacote bigrquery também fornece uma API de baixo nível.

Neste exemplo, você pode ver a consulta com funções dplyr que são convertidas em consultas SQL; no entanto, não é possível obter a flexibilidade total fornecida pela consulta direta ao SQL. Para isso, você pode enviar consultas SQL via DBI :: dbGetQuery () da R. O conjunto global de dados de qualidade do ar é atualizado regularmente, porém as entradas mais antigas são omitidas, provavelmente para economizar custos de armazenamento. Confira meu próximo post sobre como criar um trabalho Dockerized Cron para obter os mais recentes dados de poluição do ar da Índia, mantendo registros mais antigos.

Este artigo também foi publicado em https://www.r-bloggers.com/.


O Google Big Query with R foi publicado originalmente no Analytics Vidhya on Medium, onde as pessoas continuam a conversa destacando e respondendo a essa história.



Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha seu sabor: e-mail, Twitter, RSS ou facebook …



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br