Advento de 2020, dia 4 – Criando seu primeiro cluster Azure Databricks

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

[ad_1]

[This article was first published on R – TomazTsql, and kindly contributed to R-bloggers]. (Você pode relatar problemas sobre o conteúdo desta página aqui)


Quer compartilhar seu conteúdo em R-bloggers? clique aqui se você tiver um blog, ou aqui se não tiver.

Série de postagens do Azure Databricks:

No dia 4, chegamos tão longe que estamos prontos para explorar como criar um cluster do Azure Databricks. Já aprendemos que o cluster é uma VM do Azure, criada em segundo plano para dar poder de computação, armazenamento e escalabilidade à plataforma do Azure Databricks.

Na barra de navegação vertical, selecione Clusters para obter a subpágina Clusters.

Esta página fornecerá a lista de clusters existentes:

  • nome do cluster
  • Status (em execução, encerrado, excluído, etc.)
  • Nós
  • Runtime (versão Spark instalada na VM,
  • Tipo de driver (tipo de computador usado para executar este cluster)
  • Trabalhador (tipo de VM, por exemplo: 4 núcleos, 0,90 DUB, etc.)
  • O Criador
  • Ações (passando o mouse sobre, você receberá informações adicionais)

Ao clicar em existe servidor, você receberá as seguintes informações, que você pode configurar (não todas porque estão acinzentadas como visto na captura de tela), anexar aos notebooks, instalar pacotes adicionais e ter acesso ao Spark UI, Driver Logs , Métricas para solução de problemas mais fácil.

Mas ao selecionar e criar um novo cluster do Azure Databricks, você obterá muitos atributos disponíveis para definir a fim de criar um cluster sob medida para suas necessidades.

Você precisará fornecer as seguintes informações para criar um novo cluster:

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
  1. Nome do cluster – seja criativo, mas ainda siga a convenção de nomenclatura e forneça um nome que também incluirá o tipo de trabalho, tempo de execução do Databricks, modo de cluster, pool, grupo de recursos do Azure, nome do projeto (ou tarefa em que você está trabalhando) e tipo de ambiente ( DEV, TEST, UAT, PROD). Quanto mais você tiver, melhor
  2. Modo de cluster – Azure Databricks oferece suporte a três tipos de clusters: Padrão, Alta Simultaneidade e Nó único. Padrão é a seleção padrão e é usada principalmente para ambiente de usuário único e oferece suporte a qualquer carga de trabalho usando linguagens como Python, R, Scala, Spark ou SQL. Alta Simultaneidade O modo é projetado para lidar com cargas de trabalho para muitos usuários e é um recurso de nuvem gerenciado. O principal benefício é que ele fornece um ambiente nativo Apache Spark para compartilhar a utilização máxima de recursos e fornecer latências de consulta mínimas. Ele oferece suporte a linguagens como Python, R, Spark e SQL, mas não oferece suporte a Scala, porque Scala não oferece suporte à execução de código do usuário em processos separados. Este cluster também suporta TAC – controle de acesso à tabela – para um nível mais refinado e granulado de segurança de acesso, concedendo permissões mais detalhadas nas tabelas SQL. O nó único não fornecerá trabalhadores e executará tarefas do Spark em um nó do driver. O que isso significa em inglês simples: o trabalho não será distribuído entre os trabalhadores, resultando em um desempenho inferior.
  3. Pool – no momento de escrever esta postagem, esse recurso ainda está em visualização pública. Ele criará um pool de clusters (portanto, você precisa de mais clusters predefinidos) para obter melhores respostas e tempos de atividade. O pool mantém um número definido de instâncias em modo pronto (ocioso) para reduzir o tempo de início do cluster. O cluster precisa ser anexado ao pool (após a criação de um cluster ou se você já tiver um pool, ele estará automaticamente disponível) para alocar seus nós de driver e de trabalho do pool.
  4. Versão de tempo de execução do Databricks – é uma imagem da versão do Databricks que será criada em cada cluster. As imagens são projetadas para tipos específicos de trabalhos (Genomics, Machine Learning, cargas de trabalho padrão) e para diferentes versões do Spark ou Databricks. Ao selecionar a imagem certa, lembre-se das abreviações e versões. Cada imagem terá uma versão do Scala / Spark e existem algumas diferenças significativas As imagens gerais terão até 6 meses de bug corrigido e 12 meses de suporte a Databricks. A menos que haja LTS (suporte de longa duração), esse período se estenderá para 24 meses de suporte. Além disso, a abreviatura ML significa aprendizado de máquina, trazendo à imagem pacotes adicionais para tarefas de aprendizado de máquina (que também podem ser adicionados à imagem geral, mas a solução pronta para o uso será melhor). E GPU denotará algum software otimizado para tarefas de GPU.
Leia Também  O Woodsford Litigation Funding anuncia um compromisso de US $ 100 milhões do principal acionista, elevando o capital disponível para a empresa a várias centenas de milhões de dólares

5. O trabalhador e o tipo de driver darão a você a opção de selecionar a VM que atenderá às suas necessidades. Para os primeiros temporizadores, mantenha o tipo de trabalhador e driver selecionado padrão conforme selecionado. E mais tarde você pode explorar e alterar DBU (DataBricks Units) para obter melhores desempenhos. Três tipos de cargas de trabalho devem ser compreendidos; All-purpose, Job Compute e Light-job Compute e muitos mais tipos de Instâncias; Geral, Memória Otimizada, Armazenamento otimizado, Otimizado para computação e Otimizado para GPU. Todos vêm com diferentes planos de preços e conjuntos de camadas e regiões.

Todos os trabalhadores terão o número mínimo e máximo de nós disponíveis. Mais você deseja expandir, dê ao seu cluster mais trabalhadores. DBU mudará com mais trabalhadores adicionados.

6. AutoScalling – é a opção de marcação que lhe dará recursos para escalar automaticamente entre o número mínimo e máximo de nós (trabalhadores) com base na carga de trabalho.

7. Término – é o tempo limite em minutos, quando não houver trabalho após determinado período, o cluster será encerrado. Espere um comportamento diferente quando o cluster for anexado ao pool.

Explore também as opções avançadas, onde configurações adicionais do Spark e variáveis ​​de tempo de execução podem ser definidas. Muito útil ao ajustar o comportamento do cluster na inicialização. Adicione também Tags (como pares de chave-valor), para manter metadados adicionais em seu cluster, você também pode fornecer um script Init que pode ser armazenado em DBFS e pode iniciar algum trabalho, carregar alguns dados ou modelos na hora de início.

Depois de selecionar as opções de cluster adequadas às suas necessidades, você está pronto para clicar no botão “Criar cluster”.

Leia Também  Visualização de redes multiníveis com layouts de gráficos

Amanhã abordaremos o básico sobre arquitetura de clusters, workers, armazenamento DBFS e como o Spark lida com tarefas.

O conjunto completo de código e Notebooks estará disponível no repositório Github.

Feliz codificação e mantenha-se saudável!



[ad_2]

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br