Superespalhamento e coeficiente de Gini

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon A teoria encontra a prática …, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.

Resumo:

Analisamos a disseminação na transmissão de doenças infecciosas do ponto de vista estatístico. Caracterizamos a heterogeneidade na distribuição da prole pelo coeficiente de Gini, em vez do parâmetro de dispersão usual da distribuição binomial negativa. Isso nos permite considerar distribuições descendentes mais flexíveis.

Licença Creative Commons Este trabalho está licenciado sob uma Licença Internacional Creative Commons Attribution-ShareAlike 4.0. O código-fonte markdown + Rknitr deste blog está disponível sob uma licença GNU General Public License (GPL v3) no github.

Motivação

O recente relatório da Science sobre Superspreading durante a pandemia de COVID-19 de Kai Kupferschmidt estabeleceu o parâmetro de dispersão (k ) da distribuição binomial negativa uma quantidade quente1 1 nas discussões sobre como determinar intervenções eficazes. Este post curto do blog visa entender a matemática por trás de afirmações como “Provavelmente cerca de 10% dos casos levam a 80% da propagação” e replicá-las com cálculos em R.

Atenção: Este post reflete mais meu próprio processo de aprendizado do que está sendo disseminado do que tentar fazer declarações de importância.

Superspreading

Lloyd-Smith et al. (2005) mostram que a epidemia de SARS-CoV-1 de 2002-2004 foi motivada por um pequeno número de eventos em que um caso infectou diretamente um grande número de casos secundários – o chamado evento superspread. Isso significa que, para o SARS-CoV-1, a distribuição de quantos casos secundários cada caso primário gera é de cauda pesada. Mais especificamente, o número de reprodução efetivo descreve o número médio de casos secundários que um caso primário gera durante o surto, ou seja, é a média da distribuição da prole. Para lidar com a dispersão em torno dessa média, Lloyd-Smith et al. (2005) use a distribuição binomial negativa com média (R
Y_ {i} sim nome do operador {NegBin} (R (t_i), k),
]
s.t. ( nome do operador {E} (Y_ {i}) = R (t_i) ) e ( nome do operador {Var} (Y_ {i}) = R (t_i) (1 + frac {1} {k} R (t_i)) ). Essa parametrização facilita ver que o modelo binomial negativo tem um fator adicional (1 + frac {1} {k} R (t_i) ) para a variância, que permite ter variação excessiva (também conhecida como super dispersão) em comparação com a distribuição de Poisson, que ( nome do operador {Var} (Y_ {i}) = R (t_i) ). E se (k rightarrow infty ) temos a distribuição de Poisson e quanto mais perto (k ) é zero, quanto maior a variância, ou seja, a heterogeneidade, na distribuição. Observe o uso deliberado do número de reprodução efetivo (R (t_i) ) em vez do número de reprodução básico (R_0 ) (como feito em Lloyd-Smith et al. (2005)) no modelo. É importante ressaltar que é provável que se observe aglomerados no contexto de intervenções e depleção de suscetíveis.

Que o parâmetro de dispersão (k ) está fazendo fama epidemiológica é um pouco surpreendente, porque é um parâmetro em um modelo paramétrico específico. Um modelo paramétrico, que pode ser inadequado para os dados observados. Um objetivo secundário deste post é, portanto, focar mais na descrição da heterogeneidade da distribuição dos filhos usando conceitos estatísticos clássicos, como o coeficiente de Gini.

Leia Também  RvsPython # 2: girando dados do formato longo para o amplo

Número distribuído binomial negativo de casos secundários

Vamos assumir (k = 0,45 ) como feito em Adam et al. (2020). Essa é uma estimativa um pouco mais alta que a (k = 0,1 ) estimar por Endo et al. (2020)2 citado no artigo da Science. Queremos derivar declarações como “os x% de espalhadores mais ativos infectados y% de todos os casos” em função de (k ). O PMF da distribuição da prole com média de 2,5 e dispersão de 0,45 tem a seguinte aparência:

Rt <- 2.5
k  <- 0.45 

# Evaluate on a larger enough grid, so E(Y_t) is determined accurate enough
# We also include -1 in the grid to get a point (0,0) needed for the Lorenz curve
df <- data.frame(x=-1:250) %>% mutate(pmf= dnbinom(x, mu=Rt, size=k))

Portanto, observamos que 43% dos casos nunca conseguem infectar um caso secundário, enquanto alguns conseguem gerar mais de 10 novos casos. A média da distribuição é verificada empiricamente para igualar a especificada (R

sum(df$x * df$pmf)
## [1] 2.5

Lloyd-Smith et al. (2005) defina um superespalhador ser um caso primário, que gera mais casos secundários que o 99º quantil da distribuição de Poisson com média (R

(superspreader_threshold <- qpois(0.99, lambda=Rt))
## [1] 7
(p_superspreader <- pnbinom(superspreader_threshold, mu=Rt, size=k, lower.tail=FALSE))
## [1] 0.09539277

Portanto, 10% dos casos gerarão mais de 7 novos casos. Para chegar a declarações como “10% geram 80% dos casos”, também precisamos saber quantos casos esses 10% geram fora da média 2,5.

# Compute proportion of the overall expected number of new cases
df <- df %>% mutate(cdf = pnbinom(x, mu=Rt, size=k), 
                    expected_cases=x*pmf, 
                    prop_of_Rt=expected_cases/Rt,
                    cum_prop_of_Rt = cumsum(prop_of_Rt))

# Summarise
info <- df %>% filter(x > superspreader_threshold) %>% 
  summarise(expected_cases = sum(expected_cases), prop_of_Rt = sum(prop_of_Rt))
info
##   expected_cases prop_of_Rt
## 1       1.192786  0.4771144

Em outras palavras, os superespalhadores geram (em média) 1,19 dos 2,5 novos casos de uma geração, ou seja, 48%.

Essas declarações também podem ser feitas sem a formulação de um limite de superespalhador, representando graficamente o compartilhamento cumulativo da distribuição de casos primários contra o compartilhamento cumulativo de casos secundários que eles geram. É exatamente isso que a curva de Lorenz está fazendo. No entanto, para a análise de surtos, parece mais claro representar graficamente a distribuição cumulativa em ordem decrescente do número de filhos, ou seja, a seguir Lloyd-Smith et al. (2005) traçamos a parcela cumulativa como (P (Y geq y) ) ao invés de (P (Y leq y) ). Essa é uma variação da curva de Lorenz, mas permite declarações como “os% x casos com maior número de filhos geram% y dos casos secundários”.

Leia Também  psiconetria 0.7, pré-impressão com meta-análise e curso SEM online
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
# Add information for plotting the modified Lorenz curve
df <- df %>% 
  mutate(cdf_decreasing = pnbinom(x-1, mu=Rt, size=k, lower.tail=FALSE)) %>%
  arrange(desc(x)) %>%  
  mutate(cum_prop_of_Rt_decreasing = cumsum(prop_of_Rt))
# Plot the modified Lorenz curve as in Fig 1b of Lloyd-Smith et al. (2005)
ggplot(df, aes(x=cdf_decreasing, y=cum_prop_of_Rt_decreasing)) + geom_line() + 
  coord_cartesian(xlim=c(,1)) + 
  xlab("Proportion of the infectious cases (cases with most secondary cases first)") + 
  ylab("Proportion of the secondary cases") +
  scale_x_continuous(labels=scales::percent, breaks=seq(,1,length=6)) +
  scale_y_continuous(labels=scales::percent, breaks=seq(,1,length=6)) +
  geom_line(data=data.frame(x=seq(,1,length=100)) %>% mutate(y=x), aes(x=x, y=y), lty=2, col="gray") + ggtitle(str_c("Scenario: R

Usando as fórmulas padrão para calcular o coeficiente de Gini para uma distribuição discreta com suporte para números inteiros não negativos, ou seja, [[
G = frac {1} {2 mu} sum_ {y = 0} ^ infty sum_ {z = 0} ^ infty f (y) f (z) | y-z |,
]
Onde (f (y) ), (y = 0,1, ldots ) denota o PMF da distribuição e ( mu = sum_ {y = 0} ^ infty y f (y) ) é a média da distribuição. No nosso caso ( mu = R

# Gini index for a discrete probability distribution
gini_coeff <- function(df) {
  mu <- sum(df$x * df$pmf)
  sum <- 
  for (i in 1:nrow(df)) {
    for (j in 1:nrow(df)) {
      sum <- sum + df$pmf[i] * df$pmf[j] * abs(df$x[i] - df$x[j])
    }
  }
  return(sum/(2*mu))
}

gini_coeff(df)  
## [1] 0.704049

Um gráfico da relação entre o parâmetro de dispersão e o índice de Gini, dado um valor fixo de (R

Vemos que o índice de Gini converge de cima para o índice de Gini da distribuição de Poisson com média (R

gini_coeff( data.frame(x=:250) %>% mutate(pmf = dpois(x, lambda=Rt)))
## [1] 0.3475131

Exemplo de brinquedo de mármore vermelho

Para o exemplo de brinquedo, a distribuição de filhotes usada por Christian Drosten em seu episódio 44 do podcast Coronavirus Update 44 na super-leitura de COVID-19 (em alemão). O cenário hipotético descrito é traduzido para uma distribuição de filhos, em que um caso primário gera 1 (com probabilidade 9/10) ou 10 (com probabilidade 1/10) casos secundários:

# Offspring distribution
df_toyoffspring <- data.frame( x=c(1,10), pmf=c(9/10, 1/10))

# Hypothetical outbreak with 10000 cases from this offspring distribution
y_obs <- sample(df_toyoffspring$x, size=10000, replace=TRUE, prob=df_toyoffspring$pmf)

# Fit the negative binomial distribution to the observed offspring distribution
# Note It would be better to fit the PMF directly instead of to the hypothetical
# outbreak data
(fit <- MASS::fitdistr(y_obs, "negative binomial"))
##       size          mu    
##   1.69483494   1.90263640 
##  (0.03724779) (0.02009563)
# Note: different parametrisation of the k parameter
(k.hat <- 1/fit$estimate["size"])
##     size 
## 0.590028

Em outras palavras, ao ajustar uma distribuição binomial negativa a esses dados (provavelmente não é uma boa ideia), obtemos um parâmetro de dispersão de 0,59.

O coeficiente de Gini permite uma descrição mais sensata das distribuições de descendentes, que claramente não são binomiais negativos.

gini_coeff(df_toyoffspring) 
## [1] 0.4263158

Discussão

O efeito dos superespalhadores sublinha a natureza estocástica da dinâmica de uma doença transmitida de pessoa para pessoa em uma população. O parâmetro de dispersão (k ) depende da suposição de um determinado modelo paramétrico para a distribuição da prole (binomial negativo). O índice de Gini é uma caracterização alternativa para medir a heterogeneidade. No entanto, em ambos os casos, os parâmetros devem ser interpretados juntamente com a expectativa da distribuição. A estimativa do parâmetro de dispersão é ortogonal à média no binômio negativo e é simples também obter intervalos de confiança para ele. Isso é menos direto para o índice Gini.

Uma distribuição pesada da descendência pode facilitar o controle da doença, direcionando medidas de intervenção para restringir a superespalhamento (Lloyd-Smith et al. 2005). A esperança é que essas intervenções sejam "mais baratas" do que intervenções que visam toda a população de contatos infecciosos. No entanto, o sucesso de uma estratégia tão direcionada também depende de quão grande é realmente a contribuição dos superespalhadores. Portanto, é necessário algum esforço para quantificar o efeito dos superespalhadores. Além disso, o tratamento acima também enfatiza que a heterogeneidade pode ser um recurso útil a ser explorado ao tentar controlar uma doença. Outro aspecto dessa heterogeneidade, a saber, sua influência no limiar da imunidade do rebanho, foi recentemente investido por meus colegas da Universidade de Estocolmo (Britton, Ball e Trapman 2020).

Literatura

Adam, DC, P Wu, J Wong, E Lau, Tsang, S Cauchemez, G Leung e B Cowling. 2020. “Potencial de agrupamento e superação de infecções graves por coronavírus 2 (Sars-Cov-2) na síndrome respiratória aguda em Hong Kong.” Praça de Pesquisa. https://doi.org/10.21203/rs.3.rs-29548/v1.

Britton, T, F Ball e P Trapman. 2020. "O nível de imunidade de rebanho induzido por doença para Covid-19 é substancialmente menor que o nível de imunidade de rebanho clássico". https://arxiv.org/abs/2005.03085.

Endo, A, Centro de Modelagem Matemática de Doenças Infecciosas Grupo de Trabalho COVID-19, S Abbott, AJ Kucharski e S Funk. 2020. “Estimando a super-dispersão na transmissão Covid-19 usando tamanhos de surto fora da China [Version 1; Peer Review: 1 Approved, 1 Approved with Reservations]. ” Wellcome Open Res. https://doi.org/10.12688/wellcomeopenres.15842.1.

Lloyd-Smith, J. O., S. J. Schreiber, P. E. Kopp e W. M. Getz. 2005. "Superespalhamento e o efeito da variação individual na emergência de doenças". Natureza 438 (7066): 355–59. https://doi.org/10.1038/nature04153.


  1. A ser adicionado à lista de quantidades caracterizadas, como tempo de duplicação, número de reprodução, tempo de geração, intervalo serial,…↩

  2. Lloyd-Smith et al. (2005) estimado (k = 0,16 ) para SARS-CoV-1.↩

var vglnk = {key: '949efb41171ac6ec1bf7f206d57e90b8'};

(função (d, t) {
var s = d.createElement
s.src = '//cdn.viglink.com/api/vglnk.js';
var r = d.getElementsByTagName
} (documento, 'script'));

Para Deixe um comentário para o autor, siga o link e comente no blog: A teoria encontra a prática ....

R-bloggers.com oferece atualizações diárias por email sobre notícias e tutoriais do R sobre o aprendizado do R e muitos outros tópicos. Clique aqui se você deseja publicar ou encontrar um emprego em ciência da dados / R.


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br