Equipe de ciência de dados à prova de futuro

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Blog do RStudio, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.

Terra do Amanhã

Foto de Brian McGowan em Unsplash

Esta é uma publicação convidada do parceiro da RStudio, Mango Solutions

Como Carl Howe, do RStudio, discutiu recentemente em seu blog sobre como equipar equipes remotas de ciência de dados, com a rápida crise do COVID-19, as empresas foram cada vez mais forçadas a adotar políticas de trabalho em casa. Nossa tecnologia e infraestrutura digital nunca foram tão importantes. As equipes remotas de ciência de dados recém-formadas precisam manter a produtividade e continuar a gerar uma comunicação eficaz das partes interessadas e o valor comercial, e a única maneira de conseguir isso é através da infraestrutura apropriada e de formas bem definidas de trabalho.

Se sua força de trabalho trabalha remotamente ou não, a centralização de plataformas e a habilitação de uma infraestrutura baseada em nuvem para ciência de dados levará a mais oportunidades de colaboração. Pode até reduzir os gastos de TI em termos de sobrecarga de equipamentos e manutenção, protegendo assim sua infraestrutura de ciência de dados a longo prazo.

Portanto, quando se trata de implementar uma plataforma de longa duração, lembre-se de algumas coisas:

Colaboração por meio de uma plataforma centralizada de dados e análises

Uma plataforma centralizada, como o RStudio Server Pro, significa que todos os seus cientistas de dados terão acesso a uma plataforma apropriada e estarão trabalhando no mesmo ambiente. Trabalhar dessa maneira significa que um pacote escrito por um desenvolvedor pode trabalhar com o mínimo de esforço em todos os ambientes de seus desenvolvedores, permitindo uma colaboração mais simples. Existem outras maneiras de conseguir isso com tecnologias como virtualenv para Python, mas isso requer que cada projeto configure seu próprio ambiente, aumentando assim a sobrecarga. Centralizar esse esforço garante que haja uma maneira bem compreendida de criar projetos, e cada desenvolvedor esteja trabalhando da mesma maneira.

Leia Também  digest 0.6.25: Spookyhash bugfix | R-bloggers

Ao usar uma plataforma centralizada, algumas práticas recomendadas significativas são:

  • Controle de versão. Se você estiver escrevendo código de qualquer tipo, mesmo scripts, ele deve ser versionado religiosamente e ter mensagens de confirmação claras. Isso garante que os usuários possam ver cada alteração feita nos scripts se algo quebrar e podem reproduzir os resultados por conta própria.
  • Pacotes. Esteja você trabalhando em Python ou R, o código deve ser empacotado e tratado como a mercadoria valiosa que é. Na Mango Solutions, um desafio frequente que enfrentamos com nossos clientes é depurar o código legado, onde um único ‘especialista’ em uma determinada tecnologia escreveu algum processo que se tornou essencial para a missão e saiu do negócio. Portanto, não há como apoiar, desenvolver ou alterar esse processo sem que todo o negócio seja interrompido. O código de empacotamento e os fluxos de trabalho ajudam a documentar e aplicar dependências, o que pode facilitar o gerenciamento do código legado. Esses pacotes podem ser mantidos pelo RStudio Package Manager ou pelo Artifactory.
  • Reutilização. Colocando seu código em pacotes e gerenciando seus ambientes com renv, você pode tornar sua ciência de dados reutilizável. Criar esse conhecimento institucional significa que você pode evitar que um cientista de dados se torne um ponto único de falha e, quando um cientista de dados sair, você não ficará com um modelo que ninguém entende ou não pode executar. Como Lou Bajuk explicou em seu post no blog, Sua equipe de ciência de dados oferece valor durável ?, o código durável é um critério significativo para tornar sua organização de ciência de dados à prova de futuro.

Habilitando um ambiente baseado em nuvem

Além desse benefício institucional do conhecimento, a execução dessa plataforma de ciência de dados em uma instância de nuvem nos permite ampliar a plataforma facilmente. Com a capacidade de implantar no Kubernetes, escalar sua implantação à medida que sua equipe de ciência de dados cresce é um grande benefício, exigindo apenas que você pague pelo que precisa e quando precisa.

Leia Também  # 25: Teste, teste, teste… esses binários do R 4.0.0 com Ubuntu 20.04 e Rocker
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Essa mudança para a nuvem traz alguns benefícios tangenciais que geralmente são negligenciados. Fornecer à sua equipe de ciência de dados um ambiente baseado em nuvem tem vários benefícios:

  1. O custo de hardware para sua equipe de ciência de dados pode ser reduzido para laptops de baixo custo, em vez de um hardware local de alto custo.
  2. Ao fornecer uma plataforma de desenvolvimento centralizada, você permite o trabalho remoto e móvel, que é um discriminador essencial para a contratação dos melhores talentos.
  3. Ao aprimorar a flexibilidade, você está melhor posicionado para permanecer produtivo em circunstâncias imprevistas.

Este último ponto não pode ser exagerado. No início do bloqueio do Covid-19, uma empresa nacional cuja equipe de dados estava ligada a desktops se esforçava para fornecer equipamento suficiente para continuar trabalhando no bloqueio. Como resultado, sua equipe de ciência de dados não funcionou e não conseguiu fornecer informações que seriam inestimáveis ​​nesses tempos de mudança. Por outro lado, aqui na Mango, nossa estratégia de plataforma de ciência de dados nos permitiu mudar perfeitamente para o trabalho remoto, agregar valor aos nossos parceiros e fornecer insights quando eles eram mais necessários.

Construir agilidade em suas formas básicas de trabalho significa que você está bem posicionado para se adaptar a eventos inesperados e adotar novas plataformas mais fáceis de atualizar à medida que a tecnologia avança.

Depois de ter uma plataforma de análise centralizada e uma infraestrutura baseada em nuvem, como convencer a empresa a usá-la? É aqui que os mundos do Business Intelligence e dos desenvolvedores de software vêm em socorro.

Os painéis apoiados no Analytics usando tecnologias como Shiny ou Dash for Python com o RStudio Connect significam que você pode criar de maneira rápida e fácil front-ends para usuários corporativos para acessar os resultados de seus modelos. Você também pode expor facilmente APIs que permitem que seus sites sejam apoiados por modelos escalonáveis, potencialmente criando novas maneiras de os clientes se envolverem com seus negócios.

Leia Também  O membro do consórcio R, Esri, capacita a tomada de decisão informada em torno do COVID-19

Uma palavra de cautela aqui: fazer isso sem considerar como você vai manter e atualizar o que agora se tornou produtos de software pode ser perigoso. Os modelos podem ficar desatualizados, a funcionalidade pode se tornar irrelevante e os negócios podem ficar desiludidos. Felizmente, esses são problemas resolvidos no mundo da web, e soluções como contêineres e Kubernetes, juntamente com as ferramentas de CI / CD, tornam esse desafio mais simples. Como consultoria, temos soluções testadas e expostas que expõem APIs da R ou Python que suportam sites de alto rendimento de vários setores para nossos clientes.

Formas colaborativas de comunicação

A última peça do quebra-cabeça para que sua equipe de ciência de dados seja produtiva não tem nada a ver com ciência de dados, mas sim com comunicação. Sua equipe de ciência de dados pode criar informações a partir de seus dados, mas eles são como um navio sem leme, sem a contribuição dos negócios. Compreender os problemas de negócios e o que tem valor para toda a empresa requer uma boa comunicação. Isso significa que seus cientistas de dados precisam fazer parceria com pessoas que entendem a estratégia de vendas e marketing. E se você quiser adotar o espírito da flexibilidade como proteção contra o futuro, uma boa videoconferência e outras comunicações tecnológicas são essenciais.


Sobre Dean Wood e Mango Solutions

Dean Wood é um líder de ciência de dados da Mango Solutions. A Mango Solutions fornece soluções complexas de análise, consultoria, treinamento e desenvolvimento de aplicativos para algumas das maiores empresas do mundo. Fundada e sediada no Reino Unido em 2002, a empresa oferece vários serviços personalizados para análise de dados, incluindo validação de software de código aberto para indústrias reguladas.



Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha o seu sabor: e-mail, twitter, RSS ou facebook …



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br