As casas de apostas são distribuídas aleatoriamente em Madrid? Análise de padrão de pontos em R

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

[ad_1]

[This article was first published on long time ago…, and kindly contributed to R-bloggers]. (Você pode relatar problemas sobre o conteúdo desta página aqui)


Quer compartilhar seu conteúdo em R-bloggers? clique aqui se você tiver um blog, ou aqui se não tiver.

Olá!

No dia 13 de dezembro passado houve uma manifestação em Carabanchel, meu bairro de origem em Madrid (Espanha) contra a proliferação de casas de apostas (pequenos cassinos onde você pode conseguir bebidas ou cafés baratos enquanto gasta seu dinheiro apostando ou jogando). Muitas associações de bairro costumam reclamar desse tipo de lugar, argumentando que eles atraem jovens com preços muito baixos, que podem desenvolver dependência de jogo no futuro. Além disso, algumas organizações garantem que a proliferação deste tipo de lugares se concentre em bairros de classe trabalhadora com baixa renda e altas taxas de desempregados (veja este ótimo relatório para mais informações sobre isso – em espanhol). Então, como saber se as casas de apostas são distribuídas aleatoriamente em Madrid?

Imagine que você tem uma grade quadrada de 25 × 25 (625 células) e deseja espalhar 2.500 pontos. Se os pontos forem distribuídos aleatoriamente, eles terão a mesma probabilidade de ocupar qualquer célula. Ou seja, o primeiro ponto terá uma probabilidade de 1/625 de estar na célula 1, a mesma probabilidade (1/625) de estar na célula 2 e assim por diante. Assim, se tivermos 2500 pontos em 625 células, cada célula terá 2500/625 = 4 pontos em média. Este é o significado do lambda de uma distribuição de Poisson, a média ou o valor mais provável.

Imagine agora que temos os mesmos pontos na mesma grade, mas agora eles estão agrupados em 3 grupos. Neste exemplo fictício, podemos facilmente adivinhar que eles não estão distribuídos aleatoriamente apenas observando o padrão de pontos. Mas como poderíamos demonstrar matematicamente / numericamente que eles não estão distribuídos aleatoriamente?

Leia Também  0,83 é um AUC especial

Bem, dado que sabemos a forma do histograma (distribuição) que deve ter uma distribuição completamente aleatória (no nosso caso, um Peixe (λ = 4)), uma maneira fácil e direta de demonstrar matematicamente que o padrão do segundo ponto não é aleatório seria comparar as duas distribuições usando, por exemplo, um teste de Kolmogorov – Smirnov em R.

Vamos fazer o mesmo com as casas de apostas na cidade de Madrid (Espanha). Os locais das casas de apostas podem ser baixados do site da prefeitura, bem como outros dados, como limites de bairros ou renda familiar por bairro. Preparei um arquivo .zip com os arquivos necessários, que podem ser baixados aqui.

Existem atualmente 409 casas de apostas. Vamos dividir a cidade em uma grade de 18 × 18 células de 1 km como segue

 # Load required packages  
 library(rgdal)  
 library(raster)  
 library(dismo)  
 library(GISTools)  
   
 # Load data  
 nb    

Legal. Como Madrid é uma cidade heterogênea, selecionaremos para nossa análise apenas as células em que haja uma ou mais casas de apostas. Em seguida, espalharemos pontos aleatórios nos quadrados selecionados para comparar ambos os histogramas / distribuições: pontos aleatórios VS casas de apostas.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
 # Select cells with betting houses  
 grid$bh  0,])  
 landscape[grid$bh == 0] 

 Well done! We have selected 118 cells with at least one betting house and we have scattered 409 random points on them. So, now the last task is to count the number of betting houses and the number of random points at each cell. Then, we could compare both histograms/ distributions, and decide if they present a similar pattern.

 par(mfrow = c(1,2))  
 hist(poly.counts(rp.sp, sel.sqr), right=F, main = "random points",   
 xlab="number of random points by cell")  
 hist(poly.counts(bh.sp, sel.sqr), right=F, main = "betting houses",   
 xlab="number of betting houses by cell")  
   

Como você pode ver, em um padrão de pontos aleatórios, o valor mais frequente está entre 3 e 4. Como temos 409 pontos distribuídos aleatoriamente em 108 células, esperávamos ter 409/108 = 3,78 pontos em cada célula. Parece muito bom!

No entanto, podemos ver que o valor mais frequente no histograma da casa de apostas está entre 0 e 2 ... Isso porque existem muitas células vazias, embora existam algumas delas com grande número de casas de apostas (um padrão agrupado). Poderíamos comparar ambas as distribuições matematicamente usando um Teste de Kolmogorov – Smirnov.

 #Kolmogorov–Smirnov test  
 ks.test(poly.counts(rp.sp, sel.sqr), poly.counts(bh.sp, sel.sqr))  

Bônus Track: então, que variável ou variáveis ​​impulsionam a distribuição das casas de apostas em Madrid? Aqui você tem uma pista ... mas pegue os dados e explore-os você mesmo!


Fique seguro!




[ad_2]

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br