Tempo diminui para disputas de dados

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Bluecology blog, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.

Estimar o tempo necessário para concluir um projeto é uma parte importante de ser um aluno de doutorado, pesquisador ou consultor de sucesso. Um grande desperdício de tempo em muitos projetos analíticos é a disputa de dados.

Muitas vezes, a discussão pode demorar mais do que a análise.

Aqui estão algumas boas perguntas para você e seus colaboradores. Eles ajudarão você a estimar melhor o tempo necessário para disputar dados.

Quem tem os dados?

Se você estiver iniciando uma colaboração, descubra onde os dados estão armazenados antes de iniciar. Muitas vezes, os colaboradores me disseram que ‘têm’ ou ‘podem obter’ os dados. Começamos e descobrimos que eles não, literalmente, ter os dados, eles apenas conhecem alguém que os possui.

Assim, inicia-se uma longa negociação sobre o acesso aos dados com a pessoa que realmente os possui. Outra consideração nesses casos é se o seu uso é consistente com a aprovação ética original para a coleta de dados (se necessário).

Os dados são reais?

Sério, se não são seus dados, você tem certeza de que são dados reais? Ok, esta situação é rara (espero), mas acontece que os colaboradores compartilham dados falsos.

Leia Também  Nosso Conecte-se com dinheiro em cada estágio da vida

Como os dados são registrados e armazenados?

Se estiver colaborando para obter dados, descubra como eles são armazenados e registrados. Está em tabelas pdf, é uma planilha única com bons metadados ou é uma série de planilhas excel aninhadas com fórmulas com referências cruzadas?

Os dados foram analisados ​​antes?

Se tiver, geralmente já está limpo e mais fácil de trabalhar. Verifique também para que foi utilizado. Se ele tiver sido usado apenas para gerar estatísticas de resumo de alto nível, pode não estar limpo para análises detalhadas.

Se já foi analisado em R ou python, melhor ainda. Provavelmente está limpo e pronto para o uso.

Qual é o tamanho (ou seja, a memória do computador) dos dados?

Conjuntos de dados maiores são mais difíceis de limpar e verificação de erros. Dados muito pequenos podem ser verificados manualmente. Conjuntos de dados maiores podem ser facilmente verificados com uma combinação de verificação manual, gráficos e programação.

Conjunto de dados muito grande (ou seja, maior que sua RAM, como gigabytes) apresenta novos problemas. R levará um tempo para executar as etapas de processamento. Isso pode realmente diminuir a depuração, especialmente para tarefas complexas.

Você também pode ter que desenvolver estratégias especiais, como dividir seus dados em blocos para verificação de erros e depuração de análises.

Em suma, isso significa que um arquivo de 500kb demora aproximadamente a mesma quantidade de tempo que um arquivo de 100mb, enquanto um arquivo de 1 gigabyte pode demorar 10 vezes mais.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

O projeto envolve dados espaciais?

Dados espaciais registram dependências entre pontos de dados (coordenadas). Isso pode apresentar novos problemas. Obviamente, você precisará usar ferramentas especializadas em GIS. As etapas de processamento podem ser muito mais lentas, porque os algoritmos para lidar com a dependência espacial demoram mais tempo. Por exemplo, a matemática de uma junção espacial é muito mais complexa (geometria) do que a de uma junção regular de dois quadros de dados em uma única variável.

Leia Também  mais jogos da vida | R-bloggers

O projeto envolve dados temporais?

É difícil trabalhar com datas e horários. Primeiro, pode haver lacunas em uma série temporal. Como você vai lidar com isso? Talvez você precise imputar valores antes da análise?

Segundo, a programação de datas é apenas difícil. Não conheço ninguém que goste. Por exemplo, que dia é 30 dias antes de 15 de março? Depende se é um ano bissexto certo? Detalhes irritantes como esse podem realmente atrasá-lo.

Também fusos horários! As pessoas sempre me enviam dados com os horários, mas esquecem de me dizer em que fuso horário está (ou esqueço de perguntar talvez).

Você está ingressando em vários conjuntos de dados?

Este é um grande problema. A junção de conjuntos de dados é um importante e importante momento.

Tanto assim, você poderia dizer basicamente que meu nicho no meu campo está juntando diferentes conjuntos de dados de novas maneiras. Podemos obter novos resultados interessantes, mas pode ser difícil (e é por isso que nem todo mundo está fazendo isso).

Primeiro, as uniões apresentam oportunidades de erros. Se você estiver fazendo uma junção simples em uma variável compartilhada (por exemplo, com o inner_join do dplyr), mas a variável estiver codificada inconsistentemente nos quadros de dados, você poderá perder dados. Isso pode ser difícil de detectar em grandes conjuntos de dados.

Segundo, as junções podem se basear mais vagamente em semelhanças espaciais ou temporais. Estes podem ficar complicados. Digamos que você queira extrair dados da altura das ondas em alguns sites de pesquisa de mergulhadores. Basta usar as coordenadas, certo? Bem, e se os dados das ondas não se estenderem até o litoral, ou se a resolução for muito “irregular” e se faltarem alguns locais de mergulho? Agora você tem que inventar uma maneira de encontrar valores de onda perto de locais de mergulho, idealmente apenas quando faltam dados de onda. Fica complicado.

Leia Também  10 movimentos financeiros a serem feitos antes do final do ano

O mesmo problema ocorre com as junções em horários / datas. Talvez a chuva não seja medida no dia exato em que você teve contagem de pássaros. Então talvez agora você impute a precipitação ao dia que falta, mas que algoritmo dos 1000s possíveis você usará para a imputação?

Sumário

Portanto, pense com cuidado nos problemas que os dados do seu projeto possam apresentar. Se você ainda não tem certeza de quanto tempo pode demorar, tente esta fórmula recomendada por um amigo:

“Hora de redigir uma tese de doutorado: adivinhe quanto tempo você precisará redigir sua tese. Adicione 3 meses. Dobrar. Beba muito ”



Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha o seu sabor: o email, Twitter, RSS ou facebook …



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br