Estatísticas de aprendizagem: A aleatoriedade é uma besta estranha

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Nossa intuição sobre aleatoriedade é, estranhamente, bastante limitado. Embora esperemos que ele se comporte de certas maneiras (o que não acontece), ele mostra algumas regularidades que têm consequências inesperadas. Em uma série de posts aparentemente aleatórios, destacarei algumas dessas regularidades e também as consequências. Se você quiser aprender algo sobre o comportamento estranho da aleatoriedade e ganhar alguma intuição, continue a ler!

Quando a Apple introduziu sua função de reprodução aleatória no iPod, os clientes ficaram irritados e reclamaram que não era realmente aleatório. Muitas vezes, alguns títulos pareciam ser repetidos com muita frequência, enquanto outros pareciam ter desaparecido completamente. O que estava acontecendo?

Para ilustrar o ponto, às vezes mostro aos meus alunos as duas fotos a seguir e pergunto qual foi gerado pela aleatoriedade e qual por uma regra determinística (você encontra o randtoolbox pacote no CRAN):

library(randtoolbox)
## Loading required package: rngWELL
## This is randtoolbox. For an overview, type 'help("randtoolbox")'.
n 

s 

Many a student thinks that the first pic was created by some underlying pattern (because of its points clumping together in some areas while leaving others empty) and that the second one is “more” random. The truth is that technically both are not random (but only pseudo-random) but the first resembles “true” randomness more closely while the second is a low-discrepancy sequence.

While coming to the point of pseudo-randomness in a moment “true” randomness may appear to have a tendency to occur in clusters or clumps (technically called Poisson clumping). This is the effect seen (or shall I say heard) in the iPod shuffling function. Apple changed it to a more regular behaviour (in the spirit of the second picture)… which was then perceived to be more random (as with my students)!

Now imagine that the first pic represents some map showing, let’s say, leukaemia in children. Wouldn’t we want to know whether there is some underlying reason for those clusters?!? Now imagine that there is a nuclear power plant near one of the more prominent clusters… just by chance! Oh, dear! Of course, it could be the reason for the cancer cases but just by looking at the map no real conclusions can be drawn! The takeaway message is that randomness often seems to have more pronounced patterns than purely deterministic sequences.

Another area where people are easily fooled by randomness is the stock market! Have a look at the following chart:

set.seed(3141)
run 

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
par(oldpar)

Assim chamado analistas técnicos verá claramente o que eles chamam de Padrão duplo superior (basicamente a letra M no gráfico), que eles interpretam como um sinal de baixa (= venda). Agora, antes de vender todas as suas ações, quando encontrar algo parecido com isto, lembre-se de que o gráfico acima foi criado puramente por acaso (como pode ser visto no código)! No entanto, parece que todos os tipos de tendências de alta e baixa podem ser observados.

Cada analista quantitativo (ou apenas quant) sabe que os gráficos de ações (na maioria dos casos) não podem ser distinguidos dos gráficos criados pelo lançamento de uma moeda. No entanto, somos evolutivamente treinados para ver todos os tipos de padrões, mesmo quando não há nenhum. Vemos rostos na frente de carros e animais (ou outras coisas engraçadas) nas nuvens ... e compramos e vendemos sinais em seqüências aleatórias.

Enquanto eu não vou entrar na questão espinhosa (e filosófica) do que constitui aleatoriedade "verdadeira" (talvez outra hora ...), uma coisa é clara: os computadores são notoriamente ruins em criá-la. Por quê? Porque os computadores secretos são animais puramente determinísticos, trabalhando em um comando de cada vez. Então eles só conseguem criar algo que parece aleatoriedade: pseudo-aleatoriedade. No lado positivo, isso significa que esse tipo de aleatoriedade é reproduzível: em R você usa o set.seed() para obter sempre a mesma sequência "aleatória".

Nos velhos tempos dos computadores (basicamente apenas algumas décadas atrás), livros inteiros com "bons" números aleatórios eram publicados! Ainda pode ser comprado por mais de 50 dólares como brochura e tem mais de 600 páginas! Eu acho que é o livro mais não lido de todos os tempos (ainda mais que Ulisses, de James Joyce 😉

)

Os seguintes xkcd cartoon leva a idéia de pseudo-aleatoriedade a seu extremo absurdo (como sempre 🙂

):



Se você chegou até aqui, por que não inscreva-se para atualizações do site? Escolha o seu sabor: e-mail, twitter, RSS ou facebook ...

*As fotos exibidas neste post pertencem ao post www.r-bloggers.com

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Leia Também  Pesquisa: Qual o melhor grau para ciência de dados?