Efeito Rashomon e a condição grave após infecções por Covid-19

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

[ad_1]

Efeito Rashomon e a probabilidade de condição grave após infecção por Covid-19

Calculadora de risco para condição grave após Covid-19 https://crs19.pl/

TL; DR: Se você quiser entender melhor a relação entre alguma variável dependente e de destino, deve construir muitos modelos diferentes (glm, boosting, rf) e comparar seus perfis de PD (por exemplo, com DALEX).

O modelo CRS-19 (Pontuação de risco Covid-19)

Recentemente, o grupo MOCOS (MOdeling COronavirus Spread) desenvolveu a segunda versão do modelo Covid-19 para condições graves após ser infectado com Covid-19. Foi construído com base em uma amostra de mais de 52 mil casos na Polônia com um teste de PCR positivo para a doença de Covid-19 (mais sobre os dados adiante). Você pode brincar com o modelo em https://crs19.pl/.

O objetivo principal deste aplicativo é mostrar como recursos específicos afetam o risco. O efeito da idade é especialmente interessante e a seguir irei discutir alguns aspectos interessantes dele.

Efeito Rashomon

O efeito Rashomon descreve uma situação em que um evento recebe interpretações ou descrições contraditórias pelos indivíduos envolvidos. O nome vem do filme Rashomon, de 1950, de Akira Kurosawa [wikipedia].

Na área de modelagem preditiva, esse termo foi popularizado por Leo Breiman em seu trabalho Modelagem estatística: As Duas Culturas. Refere-se a situações em que vários modelos diversos têm desempenho preditivo semelhante, embora descrevam a realidade de maneiras diferentes (a chamada multiplicidade de bons modelos).

Tal situação é um desafio se queremos explicar um efeito de uma variável no modelo preditivo, pois às vezes temos algumas explicações alternativas e não sabemos qual é a melhor.

Perfil de Dependência Parcial

Se você quiser ver a relação entre uma variável dependente e a resposta esperada do modelo, pode usar os perfis de PD (propostos por Friedman em 2000). Esses perfis são implementados em vários pacotes (DALEX, pdp, iml, PDPbox, scikit-learn) e descritos em muitos lugares (consulte, por exemplo, o livro online Análise do Modelo Explicativo).

Leia Também  Dê uma espiada no pacote 'sauron' - XAI para redes neurais convolucionais.

A seguir, usaremos perfis de DP para explicar como diferentes modelos preditivos vêem o efeito da idade nas doenças graves.

Perspectiva de floresta aleatória, aumento de gradiente e regressão logística

A figura à esquerda mostra perfis de PD para os três modelos: um modelo de floresta aleatório (treinado com randomForest), um modelo de aumento de gradiente (treinado com xgboost) e regressão logística.

Todos os modelos foram construídos para a tarefa de classificação – previsão de condições graves após a infecção por Covid-19. A eficácia de todos esses modelos é semelhante (AUC em torno de 0,9). Em cada caso, vemos que o risco de doença grave aumenta com a idade (para o modelo de reforço, tal monotonicidade foi forçada).

Mas, apesar do comportamento geralmente semelhante, vemos grandes diferenças para os pacientes mais velhos. O modelo de floresta aleatória reduz a variância ao custo do viés. Para os pacientes mais velhos, as previsões são muito mais baixas do que para a regressão logística, que é um modelo bastante rígido.

Perspectiva de diferentes modelos de aumento de gradiente

Vejamos vários modelos de boosting diferentes com um número diferente de árvores. Quanto mais árvores, mais variação e flexibilidade.

No exemplo do painel esquerdo podemos ver que quer o modelo tenha 25 ou 450 árvores, a dependência que o modelo aprendeu é bastante semelhante.

Nesse caso, isso se deve à monotonicidade forçada pela qual o modelo não pode flutuar muito.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Mas como seria se o efeito da idade não fosse forçado a ser monotônico? À esquerda, vemos três modelos de boost com número diferente de árvores.

Como esperado, quanto mais árvores, maior a variância.

Vemos até flutuações aleatórias em torno de 18 e 38 anos e uma grande variação entre os pacientes mais velhos.

Leia Também  Probabilidades de ação e resistência em Blades in the Dark

Perspectiva de redes neurais, modelos aditivos generalizados e regressão logística

A figura à esquerda mostra os perfis PD para os outros três modelos. Um modelo de rede neural com três camadas (treinado com o pacote neuralnet), um modelo aditivo generalizado (treinado com o pacote rms) e regressão logística.

O modelo do pacote rms usa splines cúbicos com restrição de cauda. Podemos ver que ele se comporta de maneira um pouco diferente nas margens do que uma simples regressão logística.

Ao contrário dos modelos baseados em árvore (boosting, floresta aleatória), vemos que os modelos que usam ativações lineares têm comportamento íngreme para pacientes mais velhos.

A figura à esquerda mostra os modelos mais interessantes apresentados acima.

Novamente, vemos que os modelos são semelhantes para a maioria dos casos, mas diferem no comportamento para este pequeno grupo de pacientes mais velhos,

Retire a mensagem

Para construir o modelo apresentado no aplicativo crs19, testamos centenas de modelos diferentes (nas considerações mencionadas acima, focamos na idade, mas há muitas outras variáveis ​​que vale a pena observar). Para a maioria dos modelos comparados, obtemos desempenho semelhante medido por AUC ou F1.

Em tal situação, não há necessidade de confiar cegamente em uma medida de desempenho. Os modelos discutidos acima diferiram em um grupo muito pequeno de pessoas com mais de 90 anos. O desempenho calculado em todo o conjunto de dados não vê essas diferenças de forma alguma. É apenas outro exemplo de que o desempenho pode ser muito semelhante, enquanto o modelo subjacente pode se comportar de maneira diferente. E você não pode construir um modelo com responsabilidade se não olhar para ele. Perfis de PD são uma boa ferramenta para exame visual de modelos preditivos.

Leia Também  É um embrulho! yorkr encerra BBL, NTB, PSL e WBB !!!

Para obter mais modelos Covid-19, siga a página da Web da MOCOS.

Sobre dados

Os dados de vigilância foram obtidos do NIZP-PZH em 9 de novembro de 2020. Os dados brutos têm 51 variáveis ​​para 55.950 casos coletados entre 21 / Fev / 2020 e 04 / Nov / 2020, mas casos com tempo de observação muito curto e com grande número de dados ausentes foram removidos deixando 52 580 casos que são usados ​​para modelagem.

Se você estiver interessado em outras postagens sobre ML explicável, justo e responsável, siga #ResponsibleML no meio.

Para ver mais conteúdo relacionado a R visite https://www.r-bloggers.com


O efeito Rashomon e a condição grave após as infecções por Covid-19 foram originalmente publicados em ResponsibleML on Medium, onde as pessoas continuam a conversa destacando e respondendo a esta história.



[ad_2]

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br