Privacidade de dados na era do COVID-19

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Comunidade DataCamp – programação r, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.

Hugo Bowne-Anderson, o anfitrião do DataFramed, o podcast do DataCamp, entrevistou recentemente Katharine Jarmul, chefe de produto da Cape Privacy.

Apresentando Katharine Jarmul

Hugo Bowne Anderson: Olá Katharine.

Katharine Jarmul: Olá Hugo.

Hugo Bowne Anderson: Como você está?

Katharine Jarmul: Bom. Como você está?

Hugo Bowne Anderson: Muito bom. Então, vou ler sua biografia como Ryan, lendo a minha, para que todos saibam quem você é. Katherine está fazendo algo que eu estou muito animado. Ela é chefe de produto da Cape Privacy, uma empresa que cria sistemas para alavancar segurança, privacidade, preservando o aprendizado de máquina e a ciência de dados colaborativa. Katherine usa o código desde 2008 para, em suas próprias palavras, resolver e criar problemas. Ela ajudou a realizar as primeiras PyLadies em Los Angeles em 2010, em co-autor de um livro do O´Reily. Ela é instrutora do Data Camp. Ela gosta de acompanhar os mais recentes desenvolvimentos em aprendizado de máquina, ataques adversários, privacidade de dados e ética e infraestrutura de automação de fluxo de trabalho e é geralmente faladora. Conversas e mal-humoradas, essas são as palavras dela, mais uma vez, acompanhem suas últimas travessuras e são @KJAM, K-J-A-M.

Hugo Bowne Anderson: Katherine, como acabei de dizer, é instrutora de Data Camp. Ela tem um curso de introdução ao processamento de linguagem natural em Python. E esqueci até procurar, você também tem um projeto chamado Quem está twittando? Trump ou Trudeau? Onde eu presumo, as pessoas fazem PNL para descobrir de quem Tweets, o que eu presumo … Desculpe, continue.

Katharine Jarmul: Não, vá em frente. Sim, reunimos alguns tweets entre o presidente Trump e Trudeau e basicamente treinamos um classificador lá. Portanto, se você concluiu meu curso e não concluiu o projeto, confira o projeto e confira. O legal é que, no final, você inspeciona e pode ser um pouco enganador o quão bem ele funciona.

Hugo Bowne Anderson: Estamos aqui para falar sobre privacidade de dados e onde estamos hoje. E apenas mencionarei que estamos em todo o mundo atualmente. Muito obrigado por todos vocês se sintonizando em todas as horas do dia. Katherine está atualmente em Berlim, Ryan está na Flórida, atualmente estou na Austrália. Então, estamos trazendo isso para você de todo o mundo, mas estamos aqui hoje para falar sobre privacidade de dados. Katherine e eu tivemos muitas conversas sobre privacidade de dados no passado. Se você gosta dessa conversa, pode ouvir uma conversa que tivemos alguns anos atrás sobre privacidade quando o GDPR chegou, no podcast DataFramed. Mas estamos aqui para falar sobre como a privacidade dos dados em geral, mas o que está mudando agora na era do coronavírus? Mas antes de abordarmos isso, pensei, todo mundo tem uma história de origem diferente na ciência de dados, Katherine, então pensei que você poderia nos contar um pouco sobre como você entrou nela originalmente.

Katharine Jarmul: Sim, história realmente interessante. Assim. Eu era realmente bom em matemática e computadores crescendo. Não achava estranho, quando menina, ser realmente avançado em matemática e computadores, e posso agradecer aos meus pais por esse apoio, além de um monte de professores realmente incríveis. No entanto, quando cheguei à universidade, percebi que talvez fosse um pouco estranho, pois menos de 1% da minha turma era formada por mulheres. Então, isso foi um pouco estranho para mim. Acabei mudando e me tornando uma dupla graduada em Econ e Poli Sci e eu meio que achava que a ciência da computação não era mais para mim. A ciência de dados na época estava bastante morta, exceto as estatísticas que aprendi, por exemplo, em ciência política e economia foram realmente bastante úteis, e sim. Então, isso foi há um tempo atrás agora. Isso seria, me formei em 2004 e depois meio que acidentalmente caí na ciência de dados. Então, acabei conseguindo um mestrado em jornalismo e estava trabalhando na época no correio de Washington e juntaria muitas visualizações de dados e outras coisas para acompanhar as histórias. Interativos que costumávamos chamá-los, e eu chamei a atenção da pessoa que dirigia a equipe de aplicativos e ele disse: “Ei, você quer vir nos ajudar com algumas coisas?”

Katharine Jarmul: E então eu comecei a construir bancos de dados para os repórteres, diferentes interativos e mapas para os repórteres. Comecei a mergulhar de volta nas estatísticas e, dessa maneira, meio que caiu nela e vem fazendo isso desde então. Então, isso foi por volta de 2007 a 2008, e sim, eu venho fazendo isso desde então. Foi ligado e desligado, mas sim, definitivamente, desde que o aprendizado de máquina realmente mudou e trouxe muitas promessas desde o início de 2010. Então, adore o DataCamp e as pessoas aprendam e aprendam. Acho que aprendi muito apenas perguntando, encontrando bons mentores e ficando curioso. Então, eu realmente aprecio esse tipo de elemento da missão Data Camp.

Hugo Bowne Anderson: Incrível. Nós apreciamos muito isso. Estou fascinado por você reconhecer suas habilidades matemáticas e computacionais e habilidades ComSci muito cedo. E então você foi ao jornalismo e depois foi arrastado de volta pelo banco de dados e pelo administrador de sistemas, ou o que for. Mas você não é apenas, isso vai parecer horrível o que estou prestes a dizer, eu diria que você não é apenas um cientista de dados, mas também pode trabalhar com computadores, mas o que eu realmente quero dizer é que Suponho que várias coisas de engenharia de dados, ciência da computação e habilidades de engenharia de software, certo?

Katharine Jarmul: Sim. Sim. Quero dizer, em 2008, 2009, acho que a maioria das pessoas pensava em ciência de dados como: “Você pode criar um gráfico para acompanhar esse banco de dados que eu tenho?” Tenho certeza de que foi mais avançado fora dos meus círculos, mas isso foi o que estávamos no campo do jornalismo de dados. E então, em algumas das startups com as quais trabalhei inicialmente, fiquei meio obcecado com a qualidade dos dados e a disputa de dados e esse tipo de coisa, porque esse era o maior problema da época para responder à pergunta corretamente, nós tinha que ter certeza de que estávamos coletando os dados certos ou mesmo procurando nos lugares certos.

Hugo Bowne Anderson: E esse ainda é o problema, certo? E é claro que você também, seu livro O’Reily é sobre disputa de dados. Pode até ser chamado de disputa de dados, não me lembro, mas-

Katharine Jarmul: Sim, é. Sim Sim SIM SIM. Quero dizer, é um caso infeliz. Acho que está melhorando, pelo menos mais pessoas estão prestando atenção agora aos problemas que temos com a qualidade dos dados, que são uma compreensão e um teste à medida que as coisas chegam. Tenho que gritar para as Grandes Expectativas. Eles estão fazendo um bom trabalho nesse espaço, bem como na linhagem dos governos, de onde vêm os dados? Sob que circunstâncias foi coletado? Eu acho que muitas dessas coisas ajudam a impulsionar as conversas em torno da qualidade e podem direcionar as conversas em torno da privacidade, que é sobre o que conversaremos hoje,

Hugo Bowne Anderson: Muito, e eu acho que o teste de dados, você está absolutamente certo, e o teste de dados no que diz respeito à deriva do modelo e à deriva do conceito, se houver novos dados chegando e você quiser manter seus modelos em oposição assumir que eles estão trabalhando como você pensava.

Katharine Jarmul: Sim.

Cape Privacy

Hugo Bowne Anderson: Então, talvez antes de entrarmos, você também pode nos contar um pouco sobre o Cape Privacy. Dei um passo muito curto no elevador, mas talvez você pudesse nos contar um pouco mais.

Katharine Jarmul: Sim, sim. Então, Cape Privacy, entrei há cerca de seis meses. É uma equipe incrível. Eles estavam juntos antes de eu ingressar e estavam realmente focados na pesquisa sobre aprendizado de máquina criptografado. E tão realmente determinante é até possível usar alguns esquemas de criptografia no aprendizado de máquina de uma maneira razoável. Isso faz parte desse processo. Eles criaram um TF Encrypted de código aberto, que significa TensorFlow Encrypted, que usa um esquema de criptografia chamado computação multipartidária segura. Você já deve ter ouvido falar em computação segura antes. Esse é o suporte para o TensorFlow, que é bem legal se você me perguntar. E então entrei em contato com eles. Eles estavam procurando por um chefe de produto e, por isso, entrei e realmente parte da missão tem conseguido esse grupo incrível, orientado para a pesquisa, especialização em aprendizado profundo, criptografistas, muitos engenheiros de conhecimento realmente profundo sobre arquitetura em nuvem e esses tipos de coisas e juntando nossas mentes para criar algo que as pessoas possam usar, e sim, estamos empolgados. Nosso lançamento inicial será no final de junho.

Katharine Jarmul: Então, fique ligado e é realmente sobre ciência de dados colaborativa. Então, como podemos trazer diferentes especialistas para a mesa? Talvez especialistas em segurança ou privacidade de dados ou especialistas jurídicos e cientistas de dados realmente utilizem técnicas avançadas de privacidade e segurança.

Hugo Bowne Anderson: Isso soa como um trabalho muito emocionante e um grupo muito emocionante de pessoas por fazerem isso também. Você disse TensorFlow, certo?

Katharine Jarmul: Hum-hum (afirmativa).

Hugo Bowne Anderson: Eu não quero ir muito depressa, mas a ideia de fazer um aprendizado de máquina seguro com respeito à privacidade em um pacote de código aberto, que tem a governança de uma empresa como o Google, é uma rede de idéias e futuros possíveis, certo?

Katharine Jarmul: Sim, sim, sim, e a equipe definitivamente tem planos de apoiar Pytorch. Já houve algum trabalho no PyTorch também. É claro que quando se pode argumentar que também é apoiado principalmente por uma empresa maior. É interessante pensar sobre essas coisas, como precisamos nos integrar aos sistemas onde as pessoas estão e também estamos trabalhando em algumas coisas no espaço federado. Alguns deles se sobrepõem a outras plataformas de aprendizado federado, como o TF Federated ou o TensorFlow Federated, e alguns que podem ser construídos por conta própria, mas somos um núcleo aberto. Portanto, sempre haverá versões de código aberto. Estamos realmente ansiosos pelo feedback da comunidade. Então, se você quiser brincar com isso, faça parte.

Hugo Bowne Anderson: Isso é incrível. Então, antes de pularmos para a privacidade, eu não deveria fazer isso, provavelmente vou estragar tudo. Eu tenho lido este livro recentemente que você acabou de me lembrar. É como ler o tempo com Hugo. Ele se transformou em um clube do livro, mas na verdade é muito relevante. É compatível com humanos, de Stuart Russell, que pensa em muitas coisas, incluindo privacidade. Então, ele diz “há várias camadas na história da privacidade. Primeiro, um assistente pessoal pode realmente ser útil se não souber nada sobre você? Provavelmente não”. Agora ele está sendo provocador. Em seguida, ele diz: “Em segundo lugar, a assistência pessoal pode ser realmente útil se eles não conseguirem obter informações de vários usuários para aprender mais sobre pessoas em geral e pessoas semelhantes a você? Provavelmente não. Então, essas duas coisas não implicam que nós precisa abrir mão da privacidade para se beneficiar da IA ​​em nossa vida diária? “

Katharine Jarmul: Oh, tudo bem. OK.

Hugo Bowne Anderson: Ele diz que “o motivo é que os algoritmos de aprendizado podem operar com dados criptografados usando as técnicas de computação segura de várias partes, para que os usuários possam se beneficiar do pool sem comprometer a privacidade de nenhuma maneira”.

Katharine Jarmul: Sim. É isso que construímos.

Hugo Bowne Anderson: Ah, você está prestes a explicar com uma palavrão, o que é definitivamente inapropriado, mas uma das razões, essa é uma parte realmente empolgante da conversa. Nós realmente não vamos falar sobre como criptografar dados para desenvolver algoritmos de aprendizado de máquina baseados em princípios, mas no que eu leio e sobre o que estamos falando, há uma troca assumida entre conveniência, utilidade e privacidade, que talvez seja uma O que estamos falando é que estamos constantemente à procura de uma troca entre privacidade e segurança e que, em tempos de crise, para garantir a segurança, precisamos renunciar à privacidade. E vimos o que aconteceu depois do 11 de setembro, certo? Onde desistimos de muita privacidade e, depois, com as revelações de Snowden, desistimos de um monte de outras formas de privacidade e isso nem funcionou, certo? Como há muitas coisas que desistimos de não saber que parecem inúteis no final. Então, pensando se isso é realmente uma falsa dicotomia, acho que será muito interessante.

Katharine Jarmul: Sim. Sim.

Resumo do espaço de privacidade de dados

Hugo Bowne Anderson: Então, antes de pular para o COVID-19, talvez você possa me dar um resumo geral do espaço de privacidade de dados. Eu sei que poderíamos passar dias conversando sobre isso, mas exatamente o que você vê como maiores desafios.

Katharine Jarmul: Sim, um dos maiores desafios e algo que realmente me atraiu para o trabalho do Cape Privacy é a produção de pesquisas. Portanto, há uma incrível profundidade de pesquisa no espaço de privacidade de dados. Há pessoas que trabalham com computação ou quantificação de privacidade há décadas. Quando analisamos, por exemplo, o trabalho de Cynthia Dwork em torno das origens iniciais da privacidade diferencial, certo? E, portanto, há toda essa teoria incrível e muita matemática profunda em torno da privacidade quantificável, e mesmo quando vemos coisas como no NEURIPS, havia um ótimo painel sobre privacidade diferencial na produção. E muito disso foi, sim, mais ou menos. Sim, e tudo bem. Não há problema em não estar lá ainda, mas acho que é realmente hora de analisarmos “podemos produzir pesquisas?” E “podemos realmente levar a pesquisa adiante com casos de uso do mundo real e ameaças do mundo real que conhecemos e que se importar?” E, portanto, isso implica, é claro, em boas relações entre pessoas em pesquisa e pessoas na indústria. E acho que isso é algo que a comunidade geral de aprendizado de máquina vem trazendo uma e outra vez.

Katharine Jarmul: Também dentro da pesquisa ética, como pegamos o que sabemos sobre isso do ponto de vista teórico e o criamos para esse tipo de sistema de produção imperfeito, ou sociedade imperfeita e todas essas outras coisas.

Hugo Bowne Anderson: E Cynthia Dwork fez parte desse trabalho na Apple, certo? Ou eu inventei isso?

Katharine Jarmul: Ela fez isso na Microsoft e não me lembro para onde ela foi. A Apple tem uma equipe de privacidade diferencial que trabalha na produção de privacidade diferencial. Então, eles lançaram um artigo, acho que há cerca de dois anos atrás, quase, sobre como eles fazem privacidade diferencial em torno da sua coleta de dados do teclado. É um artigo muito bom. Então, eles têm algum trabalho lá também, e acho que uma coisa que é realmente importante agora e que espero que continue sendo importante é ver mais pessoas fazendo perguntas e se preocupando com a privacidade dos dados. Estou vendo isso em agências de notícias, em Python Data Scientists, em comunidades em geral e acho que, à medida que nos aprofundamos nas reações ao COVID 19, acho que há muitas uma conversa pública produtiva agora sobre alguns desses tópicos que espero que continue porque fazer perguntas, ser informado e curioso é realmente muito importante para que algo assim passe da teoria à realidade.

Hugo Bowne Anderson: E eu acho que é realmente importante estarmos conversando agora e há uma janela aberta, penso em privacidade, em ética de dados, em ética de IA, mas não está claro quanto tempo essa janela será. esta aberto. Então, vamos fazer o trabalho. Direita?

Katharine Jarmul: Sim. Sim. Espero que não seja uma moda passageira. Que realmente dizemos: “Oh, hm, estou preocupado com isso de vários aspectos. Gostaria de aprender mais”. E não estou dizendo que todo mundo tem que se tornar um especialista, mas espero que algumas pessoas aqui hoje sejam como: “Oh, hm, estou curioso sobre isso. Não quero mais saber. Quero contribuir. Quero tente fazer algumas dessas perguntas em meus próprios projetos “. Só isso ajudaria muito.

Hugo Bowne Anderson: Com certeza. Portanto, sem ser muito técnico, quais são algumas das possibilidades no espaço da solução para as coisas sobre as quais estamos falando?

Katharine Jarmul: Sim. Sim. Depende às vezes do problema. Portanto, existem muitas, diferentes, às quais chamamos técnicas avançadas de privacidade ou técnicas avançadas de segurança, incluindo uma variedade de técnicas de computação ou criptografia seguras. Técnicas como privacidade diferencial, nas quais acredito que mergulharemos um pouco mais tarde. K-anonimização ou outros esquemas de anonimato, e assim por diante. Existem também algumas técnicas que são talvez mais simples e diretas, como ofuscação, hash, pseudonimização, e assim por diante. E assim, existem muitas, muitas dessas ferramentas diferentes. O problema realmente é, ou o problema que eu definitivamente penso diariamente e no meu trabalho na Cape Privacy é: sem me tornar um especialista, como você sabe qual a ferramenta certa para o trabalho e como avalia o que modelo de ameaça de segurança é? Ou o que você realmente está preocupado do ponto de vista da privacidade? E isso é realmente difícil, e você não precisa se tornar um especialista. Você já é especialista em qualquer parte da ciência de dados em que decidiu se aprofundar.

Katharine Jarmul: Você realmente não pode pedir a todos que também adicionem uma área totalmente diferente. Então, parte do que estamos trabalhando e o que acho que realmente ajudaria com o espaço da solução é uma conscientização melhor, uma educação melhor e a capacidade de capacitar os cientistas de dados a dizer: “Ok, eu posso consultar aqui, eu pode ser útil. Entendo qual é a ameaça real e, em seguida, posso implementar algo facilmente sem precisar me tornar um especialista em privacidade “. E parte disso também é sobre a contribuição de várias pessoas. Portanto, às vezes, se você tiver um departamento jurídico, talvez eles devam fazer parte das conversas de maneira produtiva. Se você tem uma equipe de segurança realmente incrível, eles devem fazer parte dessas conversas. E é sobre o tipo de pessoa que pode compartilhar seus conhecimentos. Todos vocês, que estão aqui, como especialistas em ciência de dados e outros dentro de suas próprias áreas, e penso juntos, se você tiver essa colaboração entre equipes ou equipes disciplinares, eles realmente poderão chegar a um nível totalmente diferente de entendimento onde a solução se encaixa no problema.

Hugo Bowne Anderson: E você vê? Quero dizer, as empresas nem sempre tinham especialistas em segurança, equipes jurídicas ou essas …

Hugo Bowne Anderson: Especialistas em segurança ou equipes jurídicas ou esse tipo de coisa. Gostaria de saber se você vê um futuro em que a maioria das empresas terá uma equipe de privacidade de dados ou uma equipe de segurança de dados ou risco de dados ou especialistas ou algo assim.

Katharine Jarmul: Eu acho que, no geral, digamos, conscientização do consumidor, acho que a conscientização da pessoa comum sobre a coleta de dados que está sendo feita regularmente está aumentando. Muitas vezes agora, quando as pessoas querem apenas dizer: “Oi, e o que você faz?” Eu digo que trabalho no aprendizado de máquina de privacidade.

Katharine Jarmul: E eles pensam: “Oh, ok, sim, eu estou preocupado com isso. Eu tenho uma Alexa em casa. Está tudo bem?”

Katharine Jarmul: E eu sou como: “Sim, espero. Aqui estão algumas coisas para pensar. Aqui estão alguns artigos, se você quiser mergulhar nela”. Mas acho que, na maioria das vezes, desafio alguns dos meus colegas, meus colegas cientistas de dados e pessoal de aprendizado de máquina a dizer: quanto precisamos levar nessas considerações quando pensamos em sistemas?

Leia Também  Versão beta dos capítulos de análise de dados: Engenharia de software baseada em evidências

Katharine Jarmul: E eu acho que o movimento no passado, digamos oito anos ou mais, de também adotar uma abordagem mais ética do aprendizado de máquina e da ciência de dados, sinto que ele também combina bem com a questão da privacidade de dados. Porque realmente, até certo ponto, a privacidade é sobre consentimento. É sobre conscientização. É sobre compreensão e transparência. E alguns deles se sobrepõem muito bem ao debate que temos em torno da ética.

Hugo Bowne Anderson: Eu amo isso. A razão pela qual eu amo o que você disse e não o que é é porque acho que esse é um termo amorfo de várias maneiras agora. Estamos tentando descobrir o que realmente significa privacidade.

Hugo Bowne Anderson: Então, por exemplo, quero dizer que foi há cerca de 10 anos, provavelmente um pouco mais que qualquer um de nós ficaria surpreso se tivéssemos sido direcionados a anúncios com base em palavras-chave em nossa correspondência por e-mail, certo? E, de repente, alguns anos, ficamos indignados quando isso aconteceu. E então, um ou dois anos depois, foi como “Ah, não, isso é apenas o Google”. Isso é apenas o Google.

Katharine Jarmul: Está tudo bem.

Hugo Bowne Anderson: Certo? E é claro que nesse espectro também temos Zuckerberg, que é como “privacidade não significa blá …” Tudo o que ele diz, certo. Na verdade, eu não escuto mais as palavras. Mas ele tem um ponto no sentido de que nossa idéia com privacidade mudou na era da Alexa e na era dos smartphones e esse tipo de coisa. Mas precisamos desenvolver, e é nisso que você trabalha com várias abordagens robustas e baseadas em princípios para ter essas conversas e capacitar usuários individuais, cidadãos, usuários consumidores, o que quisermos chamar de dias, para tomar essas decisões.

Katharine Jarmul: Sim, quero dizer, acho que também há algo sobre ação coletiva, certo? E há também a não vergonha das pessoas. Às vezes, digamos que de uma comunidade de privacidade ou segurança envolvida mais profunda, as pessoas podem dizer: “bem, se você compra uma Alexa, você a merece”. Ou algo parecido com isto. E acho que, de fato, semelhante à citação do livro que você compartilhou anteriormente, as pessoas deveriam estar abertas a ter ou tentar coisas novas, mas criando alguma conscientização sobre riscos potenciais e, principalmente, criando responsabilidade em nome das equipes que constroem essas tecnologias e das empresas que constroem essas tecnologias realmente pensam e fazem as perguntas certas, testam as coisas e inovam e tentam novamente produzir a pesquisa.

Katharine Jarmul: Eu acho que esse não é apenas um desafio técnico completo, algo em que estamos trabalhando bastante regularmente, mas também uma meta que devemos definir para o próprio campo é: lembre-se daqueles momentos em que era difícil descobrir como poderíamos raciocinar sobre privacidade de dados em sistemas de aprendizado de máquina? Bem, isso foi no passado, agora temos um bom roteiro de como fazer essas escolhas.

Hugo Bowne Anderson: Exatamente e acho que esse tipo de coisa que você ouve muito como “Ah, você compra uma Alexa, sabe o que está recebendo”. É uma forma de vergonha também, especialmente quando as pessoas usam termos como você merece. E isso me lembra quando as pessoas dizem: “Por que você se importa com a privacidade? O que você precisa esconder?” Direita? E há tantos, quero dizer, que podem pegá-lo imediatamente. Mas colocar o ônus da prova em alguém que deseja preservar sua própria privacidade, acho que é o auge do absurdo.

Hugo Bowne Anderson: E também nem reconhece que as pessoas em posições de poder historicamente sabemos que repetidamente abusaram de ter acesso a coisas particulares sobre as pessoas. E além do que definimos, quero dizer que desenvolvemos nossos sentidos de identidade e nos definimos através de coisas que só sabemos sobre nós mesmos e que muito de nós mesmos é definido através do que consideramos privado e do que consideramos público e de ter controle sobre aquele. Então, o que acontece quando está perdido?

Katharine Jarmul: Sim, gosto muito, quando penso em privacidade, gosto de fazer referência à definição de dana boyd. Ela passou algum tempo pesquisando como as mulheres jovens interagem com diferentes tecnologias e razões sobre espaços privados versus espaços públicos. E era realmente sobre expectativa, e é sobre expectativa, digamos, quando compartilho algo com você aqui, não espero que seja privado porque estou aqui e estamos todos conversando juntos e nos divertindo muito , Eu espero.

Katharine Jarmul: Mas se estivéssemos em um telefonema e eu estivesse dizendo: “Ei”, estou dizendo algo pessoal sobre minha vida, há um entendimento compartilhado. Na verdade, geralmente nem preciso lhe dizer: “Ei, por favor, não compartilhe isso com ninguém”. Está implícito, dado o contexto. E o mais difícil é como realmente implementamos esse tipo de contexto e esse tipo de consentimento em um sistema tecnológico, certo? Esse é um bom desafio.

Hugo Bowne Anderson: Absolutamente. E eu recomendo para qualquer pessoa interessada nesse tipo de coisa, no livro de Dana Boyd, “Está complicado” sobre a vida em rede dos adolescentes. É um estudo sociológico de tecnologia sobre adolescentes que usa muitas mídias sociais e é muito esclarecedor. Fantástico, Katharine. Em um momento de crise, Katharine, o que muda em torno da conversa sobre privacidade de dados? E porque? Que mudanças vimos e por que as estamos vendo? E no que precisamos pensar?

Katharine Jarmul: Sim. Há muita coisa acontecendo agora. Passei grande parte deste fim de semana lendo debates na comunidade de segurança sobre diferentes tipos de arquitetura. Isso, para que possamos aprofundar os conhecimentos técnicos, aprofundar os debates sobre centralizado versus descentralizado, rastreamento de contatos, etc., etc.

Katharine Jarmul: Mas o que realmente me impressionou que li algumas semanas atrás foi Ross Anderson, famoso no setor de engenharia de segurança, seu artigo chamado “Rastreamento de contatos no mundo real”. Se você não leu, eu recomendo muito. Ele derruba muitos argumentos falsos, enquanto a troca que você mencionou de Hugo, que é a única maneira de combater o coronavírus, é desistir imediatamente de toda a privacidade. E meio que perfura um monte de buracos do ponto de vista da segurança e apenas do ponto de vista da cidadania sobre por que esse talvez não seja um ótimo argumento a ser apresentado. E já vimos isso antes. A segurança versus a privacidade … Barr, o procurador-geral dos Estados Unidos deu esse argumento muito como um motivo para ter portas traseiras de criptografia.

Katharine Jarmul: Este conjunto é mais seguro se formos menos privados, é um argumento contínuo que vemos há décadas e é frequentemente apresentado por pessoas no poder que já têm muitas informações sobre nós. E acho que às vezes precisamos questionar nesses tempos, o que significa a consolidação de mais dados em um só lugar?

Katharine Jarmul: Podemos pensar nisso quando vemos que o Google está ajudando o NHS agora a desenvolver modelos preditivos agora. Na vanguarda, isso parece bom. Mas, do ponto de vista da privacidade de dados, já sabemos no ano passado o que aconteceu com o Deep Mind e o NHS, um monte de dados foi compartilhado sem qualquer consentimento e ninguém foi alertado, ninguém teve a capacidade de optar por não participar. E existem essas etapas básicas que sabemos onde acho que muitas pessoas estariam dispostas a fornecer dados, mas nunca são solicitadas. E acho que esse é um grande problema quando vemos essas reações precipitadas. Muito menos se o rastreamento de contatos é realmente a melhor maneira de lidar com a crise do COVID-19 no momento.

Hugo Bowne Anderson: Eu acho que há uma pergunta relacionada quando, você sabe, com certeza, talvez esteja bem em abrir mão de alguns aspectos da privacidade, mas seria bom ver como os dados serão usados, como os modelos serão usados , se houver cláusulas de expiração, ele permanecerá em um banco de dados ao qual qualquer funcionário do governo e funcionário do Google terá acesso?

Hugo Bowne Anderson: Na verdade, contei essa história na semana passada. Vou contar a breve história do meu tempo em quarentena. Então, para todos os nossos telespectadores, voltei da cidade de Nova York para a Austrália há um mês e fui colocado em quarentena. Era um exército mandatado pelo governo que impunha quarentena de 14 dias em um quarto de hotel. E havia um telefone, havia um telefone no quarto do hotel, como fazem os quartos. Este telefone foi usado para dois ou três propósitos.

Hugo Bowne Anderson: Primeiro, um cara acabou de telefonar de outra sala e disse: “Bom, aqui é o Ben da sala 1212, rah rah rah”. Ele disse: “Estou montando um grupo no Facebook para que todos possamos reclamar de tudo o que está acontecendo aqui”. Então eu entrei nesse grupo do Facebook, mas a enfermeira ligou diariamente e recebi uma ligação de uma mulher que disse que estava trabalhando com a Nova Gales do Sul … esse é o estado em que estou, Sydney, a Polícia de Nova Gales do Sul Departamento, e eu disse: como assim, trabalha com o Departamento de Polícia de New South Wales? Ela disse: “Estou trabalhando com eles”.

Hugo Bowne Anderson: E eu disse: “Você trabalha para eles?”

Hugo Bowne Anderson: E ela disse: “Não, não.”

Hugo Bowne Anderson: E eu disse: “Para quem você trabalha?”

Hugo Bowne Anderson: E ela disse: “Infelizmente, Hugo, não tenho a liberdade de dizer que trabalhei para o governo, mas é tudo o que posso lhe dizer.” E ela disse: “Olha, eu estou ligando para descobrir onde você esteve? Em que voo você entrou? Para onde vai depois? Número do passaporte? Data de nascimento? Esse tipo de coisa”.

Hugo Bowne Anderson: E eu disse: “Tudo bem, o que você fará com esses dados?”

Hugo Bowne Anderson: E ela disse: “Estou colocando em um banco de dados do governo”.

Hugo Bowne Anderson: E eu disse: “O quê? E quem terá acesso a isso?”

Hugo Bowne Anderson: E ela disse: “Oh, não, está tudo bem. É apenas para rastreamento de contatos. Eu só vou colocar isso”.

Hugo Bowne Anderson: E eu fiquei tipo: “Não, mas quanto tempo vai estar lá? E quem terá acesso a isso?”

Hugo Bowne Anderson: E ela não disse que não se preocupe. Eu presumo que ela foi instruída a não dizer não se preocupe. Mas essa era a vibe que eu estava recebendo. Eu não contei nada a ela.

Hugo Bowne Anderson: Eu disse: “Olha, envie um policial com um distintivo à minha porta e fico feliz em conversar com eles. Mas não estou lhe contando nenhuma dessas informações por telefone”. Mas o que eu realmente percebi é que o trabalho dela também era criar um pequeno relacionamento comigo nesse processo e fazer com que eu me sentisse bem de várias maneiras, a fim de obter as informações de que precisava, o que presumo ter um bom objetivo. , mas não tenho idéia de quanto tempo, em que tipo de perpetuidade, essas informações estarão disponíveis para qualquer pessoa. E acho que esses são os tipos de perguntas com as quais estamos lidando, certo?

Katharine Jarmul: Sim. Quero dizer, uma pergunta que fazemos muito, tanto no campo da segurança, mas também que estou me perguntando com bastante regularidade algumas das coisas em que estamos trabalhando no Cape Privacy é o que são os relacionamentos de confiança e como eles interagir com o nosso conceito de privacidade? E acho que este é um ótimo exemplo.

Katharine Jarmul: Então, quando você é amigável, existe um vínculo de confiança e, como seres humanos, especialmente humanos confiantes, otimistas e felizes, queremos essa conexão, especialmente agora mais do que nunca, certo? Onde você pode estar em casa, pode estar interagindo apenas, digamos, com sua família, você pode até morar sozinho. Queremos esses laços. Definitivamente quando você está em um quarto de hotel, certo? Você quer esses laços, certo? E, novamente, provavelmente não é malicioso. Ela provavelmente também quer se conectar com os outros, certo? But what it is is it’s about do we understand the risk and can we actually evaluate the risk in relationship to those relationships of trust?

Katharine Jarmul: And so they kind of play hand in hand, we want to trust others. What is the risk of trusting others? What is the risk of handing over your personal travel details? Is there a risk? If there’s not, okay, great. But can we actually evaluate that in a meaningful way? And we as humans, I think we often underestimate privacy risk. I don’t think that we’re trained or taught or that we learn very much about how to, let’s say, not give up personal details to people that we connect with.

Katharine Jarmul: And so again, I don’t want people to become untrusting, but it’s about can we leverage let’s say technology? Can we leverage regulation like GDPR and CCPA for example, that have the right to deletion and can we enforce these in a meaningful way so that when you are on the phone and you do say, “Hey, this is a trusting relationship and I can understand a reason about the risk and oh by the way, they have this confirmation of deletion they can send me, once this is all over, they have a confirmation of what models were used with my data. I can see and I can consent maybe even one day to every data science activity that my data is being used for and therefore I can actually reason about it and I can imagine it and I can make my own choices, right?”

Katharine Jarmul: Because some of it is about empowerment and self determination once we have equal access to information in terms of how data is being used and stored and when it will be deleted, right?

Hugo Bowne Anderson: You mentioned briefly we’re thinking a lot more about data lineage, data provenance these days. Almost like a future data provenance of looking, having a view of where your data is going as opposed to where it’s come from.

Katharine Jarmul: Exactly right. And being able to say, “here’s where I’m comfortable and here’s where I’m not.” There’s this great concept in the data ethics community or responsible data community around data trust and the idea that we can collectively pool data and create a contract around it of “we pull this health data so that it can be used to say fight cancer, or map the genome or any number of things, but we forbid it from being used for these other things.” Now if we had real governance of the entire system then we could actually enforce these types of things to some degree.

Data Reproduction

Hugo Bowne Anderson: So I don’t want to go down this path too far, but I honestly can’t help myself. When speaking about how data is used, data trust, pulling it for certain uses, and talking about the right to deletion as well, how can we even think about these things when in the age of data reproduction or the ability to duplicate data, how could I ever believe you telling me that you’ve deleted my data when you could duplicate it a thousand times? Direita?

Katharine Jarmul: Yeah. That is a fantastic question and something, for example, that definitely we are working on at Cape Privacy. It also for example, within GDPR, it calls for data minimization efforts, right? How can we enforce data minimization, which is essentially trying to avoid this duplication factor of sensitive data across large organizations especially, but even in smaller organizations we see this, and some of it, it’s about the ability to define a system and the ability to define the rules at play within the system, right?

Katharine Jarmul: So we kind of get down to systems engineering or if anybody’s into security engineering that’s here, they’re starting to be like, “Oh, okay, I can start to reason about this.” One of the things that we’ve been looking into is can there be rightful attestation of deletion? Can there be an attestation of when data is duplicated? And there’s some technical ways, of course, they require visibility, they require transparency in the system. They require you to know how your system works, which maybe you do, maybe you don’t. But I encourage, especially my fellow self-taught data science folks on the line, to start thinking about this as how would we even verify if we deleted data? How would I validate that the models that we’re using, Hugo’s data got removed? How would I even find the models that used Hugo’s data? The more we can start actually thinking about how we might do these things, the more of a chance that we will do them.

Hugo Bowne Anderson: That’s actually a great point, thinking about the models that use my data, the fact that you could delete my data, but you could have encoded it in a predictive model which makes predictions about me or as we discussed recently, you can enrich my data and then is that the data you got from me or you put a lot of resources and capital into enriching it actually. So do you then own that in enriched data, right?

Katharine Jarmul: Yeah. I mean this is a huge debate even within the legal field right now for larger regulations like GDPR, what does it mean? And I expect there to be more follow up on this. I spent the past week, reading The Data Ethics Commission Report, a commission that was put together here in Germany to think about AI systems and to reason about ethics within them. They issued that report. The report will go to the EU government, to the EU as a whole, and there’s likely to be some deep conversations and possibly a proposed AI centric regulation in the upcoming years.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Hugo Bowne Anderson: Great. There was something you mentioned in there before mentioning that report. And it was something maybe we shouldn’t just be collecting all the data in the first place anyway, and assuming it has value because it’s a function of legislation not catching up essentially with the fact that modern JavaScript can ship with a bunch creep ware, essentially.

Hugo Bowne Anderson: I read an article or I guess an exposé, an article, whatever, a blog post, if you will, on Stripe tracking recently where if you use the Stripe JavaScript, it actually sends a bunch of navigation information to Stripe. Not even to the parent company that’s running the website, and they do it for fraud detection and there’s probably a lot in there in terms of like, bots move very differently than humans on pages, this type of thing. So it might be anti-bot. However, there’s also a lot of ways to do that without collecting everybody’s navigation movements and history. And part of it was also that the terms and conditions were not very clear that that was what was happening.

Katharine Jarmul: So some of this is about documenting things, being transparent, and some of it is also asking is this the best way for us to solve this problem? I think that actually goes along with the COVID-19 conversation quite well. It’s like is this the best solution for what we need right now or is this just a solution that we can do because we heard about it once and it sounded like a good idea?

Hugo Bowne Anderson: I want to move on to COVID-19 in a second, but you mentioned like it may not have been clear on the terms and conditions. Who reads the terms and conditions?

Katharine Jarmul: I do. Like yeah, nobody has time for it, I do.

Hugo Bowne Anderson: The question of the difference between consent and in informed consent is a big thing. Particularly when multinationals have big legal teams that are good at covering their asses … Myself as a consumer user, I don’t have access to that type of capital, right? Or that type of labor?

Leia Também  O controle de versão é uma máquina do tempo que traduz retrospectiva comum em previsão valiosa

Katharine Jarmul: Yeah. I mean, this was a huge push within GDPR is informed consent and the idea that you should be able to reason about what you’re agreeing to. And the New York Times, I believe it was the New York Times, had a really amazing graphic on readability of privacy policies over time. And you can see sample, like Google’s at one point in time required like PhD level nearly vocabulary understanding, and it took like 14 minutes to read. Sim.

Hugo Bowne Anderson: Yeah. It actually compared it to several other texts, including the first volume of Emmanuel Kant’s Critique of Pure Reason. And it showed that there were several, like Airbnb or whatever terms and conditions that were more difficult to read than like the most dense philosophical texts humanity has ever produced. Direita?

Katharine Jarmul: Yeah. German philosophy is pretty notorious, so yeah.

Hugo Bowne Anderson: But I remember, someone on Twitter was like, to be clear, the first volume of Kant’s Critique of Pure Reason isn’t the most difficult. And I was like, come on. But like it’s four or whatever, right?

Hugo Bowne Anderson: So how can tech help us? Can tech save us Katharine?

Katharine Jarmul: So I mean tech alone can’t do anything, right? Tech alone is good at computation, is good at maybe automation and speeding up processes and I think is now is a good reminder time to say we cannot solve societal problems with technology.

Katharine Jarmul: And Corona virus is a health crisis. It’s a pandemic. It’s also a societal crisis. It’s an economic crisis that’s happening right now around the world, and we’re not going to solve it with a better machine learning model. And we just need to take a deep breath and say, that’s okay. We can still actually use our skills around data and around machine learning to contribute in positive ways. And that doesn’t mean rushing to download the dataset saying, Oh, I figured it out and publishing it and sending it out to everyone the next day. It means really taking a step back and asking the critical questions.

Katharine Jarmul: There’s a lot of problems within COVID-19 that are not around, let’s say, tracking individuals movements or releasing a smart camera that can track coronavirus by telling me whether I have a fever or not. These types of things are, again, this rushed solutionism that is not very well thought through.

Katharine Jarmul: Instead, there’s a ton of new reporting on, for example, phishing attacks, spam attacks, coronavirus related cybersecurity threats. This is one area where machine learning has not really made a large penetration and where we could actually help, right? Capacity planning for hospitals, not in a coronavirus tracking sense, but just in a, let’s think about the problem from… I know that you spoke recently with somebody working on this problem, correct? I think that you were speaking with somebody who is doing capacity planning and supply planning.

Hugo Bowne Anderson: Yeah, with Penn Medicine, we had a webinar and they’ve developed an open source model like figuring out how many beds are needed, how many respirators, how much PPE.

Katharine Jarmul: Yeah. Sim. Logistics, like people that are trained in solving logistics problems, operations, research problems in terms of why we have low supplies? How we can help with that? What is the equitable distribution of supplies? And again, not just rush download, but really it’s taking the time to ask the people in need what would actually be beneficial? And so from a local first perspective, it’s even talking within your community, getting something set up where people can share what they need online. You can use some NLP that you learned if you took my course on those datasets to say, “Oh, is there needs that we can collectively group together and make sure we have like a big groupby to minimize the amount of exposure for delivery folks.”

Katharine Jarmul: Food banks, there’s lots of local food banks that are trying to do things. There’s of course many other ways to help frontline workers other than tracing their movements via their cell phone, right?

Katharine Jarmul: And then finally, getting informed on more advanced privacy and security techniques. If you have some extra mental bandwidth, which is okay, if you don’t, but just starting to learn and talk about them and think about them and apply them in your own work is already, I think, a step forward you can take during this time that avoids, again, this rushing to figure out the easiest solution, the whole hammer approach, where, if you have a hammer, everything looks like a nail.

Katharine Jarmul: And so I think there’s some of that and I encourage people to get out of their comfort zone to try thinking in a cross functional space to try thinking with people you wouldn’t normally think about data science problems with and to actually take in their input and feedback and have that drive it rather than, “Oh, I already know what to do. Let me just download this dataset and I’ll have a model to you in the next day.”

Rastreamento de contatos

Hugo Bowne Anderson: We’ve mentioned several times something which a lot of people are thinking about at the moment, contact tracing apps. We’re being asked to go to the app store and put them on our phones from our governments, right? So maybe you can give us kind of like your take on contact tracing apps, whether they’re, a month ago I was in New York City and now I’m in Sydney and they’re very different parts of flattening the curve and very different numbers and densities. And I wonder whether contact tracing is even relevant for all cities at this point in time. And then whether that’ll work, what we need to keep in mind, and those types of things. I know there are a lot of questions in there, but maybe we can just start by talking about contact tracing.

Katharine Jarmul: Yeah. So contact tracing, we have to think about it in multiple prongs, right? From a technical standpoint, let’s dive into that first because it’s interesting, we have a lot of arguments happening now around centralized versus decentralized collection methods. And the argument often for centralized is you need a central authority or some validation that the data that you have is true and correct. Maybe there’s something to that. But there’s also the argument for decentralized, it’s slightly more privacy preserving and perhaps only centralizing it after certain data privacy mechanisms have been used.

Katharine Jarmul: This makes me think about something for example, that we’re working on at Cape Privacy is a concept of federated analytics where everybody can send updates to a secure aggregation point, this is encrypted at that point in time, and then a final result is pushed out to all participants.

Katharine Jarmul: And so there’s some ways to think about this that also allow for a better visibility and understanding of how the information is being used. Some level of validation, of course the validation becomes mainly an argument of can we validate data quality? Which most people when they’re thinking of these coronavirus tracing apps, how many people are going to turn it on and as a joke report that they’re sick or something like this? There will be a non zero number of that.

Katharine Jarmul: And then another technical problem is the use of Bluetooth or even wifi and GPS is imprecise. It can have me close to a neighbor who’s actually on the other side of a door. It can have me in a bus going by some place or a person that is standing at the stoplight. From the more recent scientific studies, it is probably much better to determine are people in an enclosed space together or not? And that requires quite different sensors and measurements.

Katharine Jarmul: And then finally, from a technical perspective, when we look at something like the Apple-Google partnership, it doesn’t work on 2 billion devices. Because they’re older and the older devices are more likely people in lower income groups and older people, which are actually larger at risk populations. So will we come up with a tech only solution and you need the latest, greatest, and yet the most vulnerable do not have the latest greatest. Then what exactly is our solution? Are we going to ship new iPhones to every person? Is that going to be the solution? We have to kind of think of it at a higher level.

Katharine Jarmul: And then there’s other parts of the problem of course, which is a lot of this contact tracing and flattening the curve is about hospital capacity near you. And one of the critical questions I don’t see being asked is not this, why aren’t you staying home? And kind of some of the shaming that I see, which by the way, if people are not at home, they might be going to work and they might be going to work because they can’t stay at home and feed themselves, right? So we need to kind of watch ourselves judging and critiquing others where we are not them and we do not know what their needs are.

Katharine Jarmul: And then secondly, why is it that our hospitals are not prepared for pandemics? Even though from a statistical point of view, we know that they are not impossible or hugely unlikely. And so some of that is about, thinking about the cost models of our hospitals. There was a great quote from an official in France who was like, “We pay the firefighters even when a building is not on fire.” And maybe we need to think about that for our healthcare systems as well is we need to be maybe over prepared even when there’s not a pandemic.

Hugo Bowne Anderson: There are a lot of things that I want to touch on there. You mentioned the demographics that are at higher risk. And related to that I think we’re seeing and we’ll see that there are different demographics who will win with respect their privacy as well. This is something that we’ve seen play out. There’s a wonderful book called Automating Inequality by Virginia Eubanks and it’s about really three large at-scale models that decide who in LA, from the people who are homeless, who will get housing, where it will be. It also decides who’s eligible for welfare in, I think that’s in Pennsylvania, another model of which it predicts which children are at risk, I can’t remember where that is, of domestic violence abuse and reports.

Hugo Bowne Anderson: And time and time again, throughout all these cases, Eubanks actually coins the term “the digital poorhouse”, and it essentially refers to the massive surveillance system that is able to keep its eye on people in lower socioeconomic classes across the US and actually I think coining the term the digital poorhouse, is a wonderful active naming because it gives us a historical tether to think about what’s happening currently.

Hugo Bowne Anderson: But we do see all our preexisting societal biases reinforced by at-scale inference-and-decision-making systems, right? And I presume that we’ll see similar things happening with respect to privacy around COVID as we are with respect to bodily health. I mean we’ve seen the numbers of rate of infection and fatality, for people of color in the US, right?

Katharine Jarmul: Yeah. There’s a lot go dive into there. I’m not sure we have time to dive into all of it; however, I gave a talk at Chaos Communication Camp this past summer called Privacy as Privilege. And I delve into many different areas, of course Virginia Eubanks’ work is in there, but it’s about ways where privacy has become almost irreversibly tied to privilege within, let’s say also like especially societies that are deeply connected right now and the ability for AI to function for you versus function against you is part of that, right? And so the Alexa, that helps me. AI is here to help. Data collection is here to help.

Katharine Jarmul: Versus the AI that incarcerates me. AI is here to imprison. AI is here to maim or kill, right? And so when we think about that, and especially as the data scientists, right? The ones that are building systems, we also have to think about who’s going to benefit from this and who’s going to lose because of this.

Katharine Jarmul: And if we can’t reason about those questions, we should get a cross disciplinary team. Get friends that work in humanitarian sectors and human services and start deeper connections there and deeper conversations around, you know, thinking two steps ahead is hard. It’s hard. I’m an optimist. I always think like, “Oh, it’s going to work out perfect.”

Katharine Jarmul: But we also have to have people around us that remind us, “Hey, it’s not always going to work out perfect.” And we should think about, again, these risk factors, think about these trust factors, think about and be prepared for how it might go wrong and how it’s going to interact with larger societal systems like, let’s say, inequality and unequal distribution of resources and oppression, right?

Hugo Bowne Anderson: So, I want to go back to contact tracing for one second and in particular, talk about…Oh… When I saw that Google and Apple with collaborating like to do with sensitive, private stuff, I thought about my space of tech companies with respect to how they think about privacy and how comfortable I am with the way they think about privacy. And none of them are great, right? But when I look at that spectrum, Apple’s on one side and Google’s really, really far on the other side. So it was almost like I had this cognitive dissonance around these companies collaborating together. Did you experience something similar or do you have any thoughts on that?

Katharine Jarmul: So I have to first and foremost say that I know and have met people working in data privacy at both Apple and Google. And I think there’s a lot of really thoughtful individuals and researchers at both companies, also at Facebook right now has a really active cluster of folks working on privacy and data science. And Snapchat does too. So it’s amazing when you start to dive into the data privacy, let’s say, in data science and machine learning that there’s these play people in places that you might not expect.

Hugo Bowne Anderson: I agree, but back to your point before.

Katharine Jarmul: [crosstalk]not kick to those people because I think that they’re doing really…. Sim.

Hugo Bowne Anderson: Sorry, I was just going to say it is a question of how it’s deployed as well right.

Katharine Jarmul: Exactly.

Hugo Bowne Anderson: Is it even aligned with any company’s business incentives?

Katharine Jarmul: Yeah and my biggest concern with the Apple-Google plan is, outside of what are we going to do about older devices, is to me it seemed like jumping to a solution that we weren’t sure worked and we weren’t sure was needed.

Katharine Jarmul: And some of this is because there is so much uncertainty around how it spreads, are there different strains? Can one get it again after somebody has recovered? All of these things are still really in flux, right? Which means we don’t want to build a solution that everybody thinks will fix something and then turns out it’s not even related to the real solution, right?

Katharine Jarmul: That was some of my primary concern around it is, well, what’s going to happen is you know, people going to think, “Oh, I downloaded the app so now it means I’m coronavirus safe, and maybe this is like a false sense of security. And then if we use that app, say, in a really restrictive way, such that maybe your employer can look, how many people are going to maybe lose their job or be told to stay at home who are not actually positive for coronavirus?

Katharine Jarmul: And how unpredictable is our access to testing in a ubiquitous way. And have we tested everyone who has symptoms and have we also tested large groups of people who don’t have symptoms, right? There’s a statistician that works here in Germany alongside the Robert Koch Institute that has been pushing for a larger widespread sampling of tests because just setting up testing locations and having people self report, you can imagine it’s going to be people with symptoms and it might be people that are, let’s say overly concerned about their health given the daily news. And for example, I haven’t gone to my local testing, so I don’t know. I may be asymptomatic, right? So there’s all this stuff that we don’t know from a scientific perspective and we don’t want to jump into a solution without actually consulting with the scientists who are working on this problem first. You know?

Hugo Bowne Anderson: I also read that we could have false negative rates of up to 30%, right?

Katharine Jarmul: Exactly. Sim.

Hugo Bowne Anderson: Also coming from New York, I don’t know if I told you this, I was tested and the language they used was fantastic. She said the test, the doctor said the test did not detect the presence of… as opposed to it came back negative, which I think is actually really, really cool. I’ll tell you what though, the swab was really full on. She put my head back against the wall and shove this thing straight down there. I pity the fool who tested the tiger. I tell you that, Katharine.

Katharine Jarmul: Yeah, yeah. I mean, some of this too. I mean, some of what I’ve been thinking about, there was a really great piece from the deep learning AI newsletter that was around like do no harm. And it was about, let’s say, like releasing models as based on incomplete data or incomplete scenarios. And what you said also reminds me there was a recent data skeptic podcast with Jessica Holman-

Katharine Jarmul: and her group studies visualization of error and uncertainty in data science. And it’s like when we talk about these things, I mean, even some of the reporting I’ve seen around COVID-19 in the newspapers or in the other media that I’ve been consuming, maybe I have a level up because I have some statistical training and background. But think about the average, let’s say, human, and the level of mathematics knowledge that’s there. Can they reason about the risk of infection? Can they reason about the verifiability of these tests? Can they reason about the predictive capacity of a model built on limited or over sampled data from a certain population?

Katharine Jarmul: We’ll have to responsibly report this information and data because we’re trusted members of a group of people who know what data is about. And so, we have to really make sure that that’s super clear and figure out better ways to represent that than, say, a way that we as a community would talk about errors or that we as a community would talk about uncertainty.

Leia Também  Combinar valores em um vetor

Hugo Bowne Anderson: Absolutely. And I do remember after the presidential election in 2016 people came out and said, “Oh, the predictions were wrong.” And that statement, in itself, totally misunderstands, and I understand it, but I totally misunderstands what a probabilistic prediction is. If you say something has a one in 10% chance and it still happens, that was just that one in 10 thing happening, right?

Hugo Bowne Anderson: Actually, Allen Downey had some wonderful posts on this, and he had an idea when I chatted with him on DataFramed, one idea he had which I really loved was newspapers could report these probabilistic predictions by each day doing the simulation and seeing what it was and reporting this future in order to get people accustomed-

Hugo Bowne Anderson: Yeah. And Nate Silver and the people at FiveThirtyEight are using kind of more principled, mindful language around it, saying there’s a one in five chance that this will happen, there’s a four in… As opposed to, “That’s 10% likely,” which people may misinterpret in a variety of ways. But we crave certainty as well, right?

Katharine Jarmul: Yeah.

Hugo Bowne Anderson: We need to become more comfortable with uncertainty.

Katharine Jarmul: It’s true, yeah. And make sure that people know or have, let’s say, the right mental framework to make responsible choices both for themselves and for their communities, right? One of the graphics that professor Holman mentioned is, I don’t know if you saw it, I think it was the New York Times one again, where you could trace and see the probability of somebody staying above or below the poverty line based on race in the United States. And just by creating a graphic that instead of the big bar chart, actually have, “A person is born, they end up in poverty. A person is born, they end up not,” and visualizing it by, let’s say, like a visual sampling was a lot easier for people to comprehend. And there’s so much more work that we can do around that, around how do we allow people to reason about systems. I know some of the work that we’re working on is how do we allow people to reasonably reason about privacy and systems, right?

Hugo Bowne Anderson: The Times have done a lot of great stuff on that. I mean, they were early doing interactive, like D3 visualizations and that type of stuff where… I remember that was one which it had the job report and it looked like it was going up, but they showed that, if it was stationary, all the different ways it could look based on sampling. And they had a similar one on, it was some election polling and it reported so-and-so was ahead, but it showed that, as a function of sampling, all the different ways it could work out. And it showed that interactively.

Katharine Jarmul: Yeah. I encourage people, I know that DataCamp has several visualization courses. If you haven’t taken one, even if you’re like, “Oh, I just want to build ML models,” there’s a lot of interesting applications of visualizations even when we think about machine learning. So take a chance to dive into something new.

Difference Between Uncertainty and Risk

Hugo Bowne Anderson: The other thing that I think is important is for people to start to talk more about the difference between uncertainty and risk. You may refer to these as known unknowns in terms of risk and unknown unknowns in terms of uncertainty, but the way I think about it is when you’re playing at a casino, or let’s say you’re flipping a coin or playing roulette. You’re playing roulette, you know the odds, right? You’re playing with risk there. You know exactly what the distribution is, you know all the possible permutations and what your chances are.

Hugo Bowne Anderson: What uncertainty would be is if the table was rigged and you didn’t know how. Then you actually don’t have information around that. So thinking about what you do know and what you don’t know. I think one of the truly, truly, deeply challenging things of what we’re going through now globally is that there is so much uncertainty. It isn’t just risk. We actually, we don’t know, right?

Katharine Jarmul: Yeah, we have a lot of unknowns right now, and we thankfully, I think more of the unknown, if anybody’s played the exercise of known to unknown on both sides, we have a lot of unknown unknowns that are starting to move into known unknowns, which is good. This is a good movement. Hopefully eventually they’ll move into known knowns, but yeah, we need to be a little bit patient with our friends in the biological sciences and health sciences and figure out ways to assist them in their research so we can figure out good responses to the current crisis.

Call to Action

Hugo Bowne Anderson: Exactly. So I want to get to questions from the crowd in a minute. But before that, I’d just love to know if you have a final call to action or something you’d like people to focus on or to think about in the coming weeks and months?

Katharine Jarmul: Yeah, I’ll ask that people, rather than jumping too soon into tech solutions, that you focus on your local community, that you take time to reach out to local community leaders, to community groups that are working in this space, to donate your time and your thoughtfulness and your energy there first. And maybe part of that is teaching yourself and people around you something new about privacy, about machine learning, about privacy in machine learning. And let’s try to have some collective action around that. Not collective shaming but collective empowerment there.

Katharine Jarmul: In the same sense I also want to say to please focus on looking after yourself. You don’t have to be a hero, and you can’t be a hero if you can’t take care of yourself first. So like to say the refrain, a lot of my friends right now too who feel like they have to do something to help is, have you asked yourself what you needed? Make sure you put your own mask on before helping others. Use that from the airline. Veremos. But really take care of yourself and the people close to you first and then start thinking about the larger community.

Q&A

Hugo Bowne Anderson: Thank you so much, Katharine, for taking such a mindful and humanistic and empathetic approach as well. I really appreciate that. We’ve got so many great questions. The first one, we’ve talked about this, but, I mean, I don’t have an answer to it, so I’m going to ask you. And I hope I’m pronouncing your name somewhat correctly, Rughavendra asks, “Is there a solution as of now to check if your data is deleted?”

Katharine Jarmul: No. There is no commonplace solution for this, unfortunately. Yeah, this is something I think numerous folks are working on. There’s some systems that are kind of around this. Now, what we can debate about is whether they’ve traversed the entire problem space. So maybe it has confirmed that it has been deleted from, let’s say, the primary database, but it cannot confirm, let’s say, artifacts or intermediary data sources or whether the data set was downloaded to a local data scientist’s computer and so on. So this is an open problem. It’s not an open problem as in it can be solved, but it’s an open problem in terms of it’s not yet actively deployed.

Hugo Bowne Anderson: I still come back to this idea of duplication. I was a teenager in the mid ’90s, which meant that for, better or for worse, I’m going to admit to slightly illegal activity. Or I’ll say some friends of mine. Some school buddies of mine-

Katharine Jarmul: Were you on Napster?

Hugo Bowne Anderson: They’d burn compact discs, Katharine. They would buy them and they’d take it home and burn 20. I tried to stop them, but they’d do it every day. And then of course iPods came out and suddenly bit torrenting and all of that. Like how do you even think about verifying deletion when you have this type of duplication? So a bunch of other good questions. Andrew asks, this is great, ” In order to log on to some UK pub or shop wifi…” Firstly, thank you, Andrew. I actually worked in a pub, the Princess Louise on High Holborn street in London and I miss those days dearly. I lived with a bunch of Australian barmen, I shared a room with them. Look, in all honesty, I miss British pubs currently. But Andrew asks, “In order to log on to this wifi, the registration process sometimes demands a date of birth. The question is, is this reasonable? For what purpose is this required? Or is it abuse collecting information for the sake of it, stored for how long? Accessible by whom? And for what purposes?” Andrew says, “I believe this is unreasonable but would appreciate your thoughts, please.”

Katharine Jarmul: Yeah, I mean, we see a lot of these consent being… From a regulatory perspective, there’s of course some consent around age, right? There’s a specific regulation that applies to minors, and that definition is different from jurisdiction to jurisdiction. And so some of that might be like, “Oh, we’re not going to track you if we think you’re under 13 but if you’re over 13 then we have a right to track you.” And it’s hidden somewhere in a terms and conditions that evidently only I read.

Katharine Jarmul: But yeah, so there may be some legal reasons why people are asking this. And so, instead of saying something obtuse like, “Please tell me your age to access,” they should maybe be straightforward and say, “Here’s what our website does, here’s how the data access works. If you agree, you have to confirm you’re over 14,” or whatever it is. And unfortunately I think that this is what I would say is like a dark pattern in terms of consent screens.

Hugo Bowne Anderson: I totally agree. And to build on that, I think something we see in that question is, okay, let’s just say that access to the internet is a basic human right. That’s something I believe. I know people who do, I know people who don’t. It’s definitely something that’s incredibly important and you could view someone requiring you to give up information in order to access something which you have the right to in certain situations aS some sort of ransom as well. And it does seem unfair in that sense and something I’d encourage us all to rally against.

Katharine Jarmul: Yeah. I mean, transparency especially in this type of hidden consent and where the data is going to be used and how and what third party may or may not be, let’s say, tracking your data access. This is something that I also brought up in terms of Privacy as Privilege is more often than not when you use free wifi, you’re trading data for a service. But not everybody has at-home wifi. So we need to think about those problems as well.

We have a question from Orhn, O-R-H-N. Orhn asks, “Hi, Hugo and Katharine. Thanks for the webinar.” That’s lovely. “I’ve been following your Python courses on DataCamp.” That’s awesome. ” “My question is about the health vertical for privacy. I’ve been consulting a video consultation startup and they’ve been struggling to scale their data analysis sources across different countries since different countries and health administrations required different sorts of privacy regulations. Is there any collective source of information for data privacy regulations internationally?”

Hugo Bowne Anderson: I’m just going to build on this. And I think you and I have chatted about this over the past several years. GDPR, for example, if you’re a small startup and trying to figure out even what it means, the type of legal costs you can incur then are really disincentives in a lot of ways. This legislation’s really important, but then for a company figuring it out on the other side is a huge challenge. So I think this question speaks to that more generally as well.

Katharine Jarmul: Yeah, I mean, this is a big part of the daily challenge we’re working on right now is how does one determine which privacy techniques to leverage based on both regulation and other risks, let’s say, of like proprietary information in a model or data sharing between companies that maybe don’t have perfect trust. And so some of this is about modeling, like what is the system that we want to build and what are the risks and threats there? In this case, maybe the risks would be regulatory risks, right? So can completely empathize that this is a difficult space.

Katharine Jarmul: I follow quite a lot of different people within the compliance and regulation space to try to keep up on things. Even though they’re based in the US, the IAPP has a pretty good… I think everything’s in English and it’s not always as specific as, let’s say, when I read the German reports on it. However, the IAPP has a pretty impressive comparison of a lot of different things. It’s an organization mainly for privacy professionals. So I could recommend that you check out things there and definitely stay tuned with what we’re building at Cape Privacy, because part of it is about letting people, letting small startups and other teams work on these critical issues while still staying compliant within the regulatory needs and maybe even within a privacy by default or by design kind of space. Again, you shouldn’t have to become an expert to make the proper choices here, and unfortunately that’s kind of how it looks like right now.

Hugo Bowne Anderson: So we have time for one last question. We haven’t gotten to all of them unfortunately, but please do feel free to reach out to Katharine or myself on Twitter, @KJAM and @hugobowne respectively. Or on LinkedIn. It may take some time for us to get back to you, but please, please do be in touch.

Hugo Bowne Anderson: Okay, the final question is, “Hi, Katharine,” this is from Rob, “Hi, Katharine.” Hey, Rob. Hey, mate. He’s a government data scientist in the UK. That’s why I just called him mate. This is a great question. Rob says, “Naturally public data trust is a big area of interest. You, Katharine, mentioned that tech alone can’t solve all the problems. In your eyes, what are the non-tech priorities in the space of public data trust?”

Katharine Jarmul: Yeah. Excellent, excellent question. One of the largest things is, or one of the things that I know from people working in the space is from a legal context, could we actually abide by regulation and set up data trust at the same time? Because there are of course a lot of precautions, let’s say, especially around electronic health records. As the previous question asker pointed out, they’re not, let’s say, generalized across all jurisdictions, and so we quickly run into a problem of, if my EHR, if my electronic health record data is stored in a data trust in Canada but I’m a European resident, then it gets quite murky, the type of consent that I have to give for these things. And then let’s say then the company that wants to use it is in Brazil, then we open up a whole other thing of international jurisdiction of data and consent and transparency and so on.

Katharine Jarmul: So from a legal aspect, I know there’s quite a lot to dive into around data trust. And then I would challenge us from a humanitarian data science perspective if our non-technical side is do we understand the problems there? Do we understand the problems of putting a bunch of data together? We’re creating quite a large security risk from that standpoint. And then do we understand how we can communicate about how the data is being used to persons? This is outside of the enforcement that that’s actually what it’s used for, which is of course a huge technical problem and also just a trust problem. And so some of it is kind of my challenge too of can people reason about privacy risk? Can people reason about machine learning if it’s new to them? Can people reason about uncertainty, errors, statistics? And so we have to answer those questions alongside the larger technical questions.

Hugo Bowne Anderson: So that was a great question and a wonderful answer. I wish we had more time, but we’re going to have to wrap up now. We’ve still got nearly a thousand people here, and that’s incredible to stick around for an hour and a half for a conversation like this. I’d like to thank Ryan, who’s one of the superstars behind our webinar program here, and everyone at DataCamp who makes these webinars possible.

Hugo Bowne Anderson: Once again, we received lots of questions we weren’t able to answer. So feel free to reach out to us on Twitter and LinkedIn. The recording of the webinar will be sent out via email after this whole week of webinars. And don’t miss tomorrow’s webinar on how to roll out an online first data literacy program, which will be at 11:00 AM ET. Thanks once again for joining. The biggest thanks of course, thank you so much, Katharine for bringing your-

Katharine Jarmul: Thank you, Hugo.

Hugo Bowne Anderson: … expertise and energy. I invited you on for this because I love every conversation we have and it’s always a wild ride, and this just exceeded all my expectations. I got to be honest.

Katharine Jarmul: Likewise. Thanks everybody who joined. Feel free to reach out. I promise some explanations of some topics like differential privacy and federated learning that we didn’t dive too much into. So if you want to dive into this more, ping me on the Twitters.

Hugo Bowne Anderson: So Katharine will send out a tweet per day explaining all these technical concepts, is what I just heard. And I look forward to that in 180, however many characters they increased it to last time, or less.

Katharine Jarmul: 240?

Hugo Bowne Anderson: Whatever it is.

Katharine Jarmul: Thank you, Hugo. As always, it’s such a pleasure chatting with you.

Hugo Bowne Anderson: Amazing. Thank you so much, Katharine. And thank you, everyone. I just said that to the wall, but thank you. Tudo certo. I’m out of here.

var vglnk = {key: ‘949efb41171ac6ec1bf7f206d57e90b8’};

(função (d, t) {
var s = d.createElement
s.src = ‘//cdn.viglink.com/api/vglnk.js’;
var r = d.getElementsByTagName
} (documento, ‘script’));

Para Deixe um comentário para o autor, siga o link e comente no blog: DataCamp Community – r programming.

R-bloggers.com oferece atualizações diárias por email sobre notícias e tutoriais do R sobre o aprendizado do R e muitos outros tópicos. Clique aqui se você deseja publicar ou encontrar um emprego em ciência da dados / R.


Want to share your content on R-bloggers? click here if you have a blog, or here if you don’t.



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br