Modelos sob medida não são iguais a correções simples

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[This article was first published on R – Win Vector LLC, and kindly contributed to R-bloggers]. (Você pode relatar problemas sobre o conteúdo desta página aqui)


Quer compartilhar seu conteúdo em R-bloggers? clique aqui se você tiver um blog, ou aqui se não tiver.

Vamos dar uma olhada em nossa primeira observação sobre um tópico que o pré-estabelecimento das definições de homotopia do modelo de probabilidade torna muito mais fácil escrever.

Nesta nota iremos discutir modelos de probabilidade personalizados. Existem modelos deliberadamente ajustados aos dados de treinamento que têm uma prevalência de resultado igual à prevalência de resultado esperada nos dados em que devem ser aplicados. Este é um caso de modelagem muito típico, obtido gratuitamente quando os dados de treinamento são considerados estatisticamente intercambiáveis ​​com os dados do aplicativo futuro, o que é um bom projeto experimental (em nossa notação formal, este é o O-modelo-homotopia, no caso limitado em que é um procedimento correto). Os modelos personalizados podem ser simulados por meio da reponderação ou reamostragem dos dados de treinamento para ter a mesma prevalência esperada nos dados de aplicativos futuros (em nossa notação formal, este é o T-modelo-homotopia).

Informalmente, os modelos sob medida são modelos muito cuidadosos que foram construídos para antecipar como serão aplicados no futuro. Nossa afirmação é: o processo de adaptação do modelo não é monótono. Ou seja, algumas previsões invertem a ordem no processo de adaptação do modelo. Isso implica que a adaptação do modelo nem sempre é tão simples quanto ajustar as previsões de uma maneira monótona. Portanto, supondo que os modelos adaptados estejam corretos, esses ajustes estatísticos simples podem na verdade ser insuficientes.

Leia Também  poorman: Versão 0.2.1 Release | R-bloggers

Vamos deixar o acima preciso e trabalhar com um exemplo usando regressão logística (um modelo que se pode esperar ter propriedades de alfaiataria monótonas, mas não tem).

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Usando nossa notação de homotopia de modelo de probabilidade e definições, o que dissemos acima pode ser refinado e condensado na seguinte afirmação técnica.

Mesmo no caso de modelos de regressão logística, a homotopia do modelo de probabilidade adaptado T nem sempre pode ser fatorado em T(x, p) = fp(m(x)), Onde m(x) é um modelo de probabilidade.

Esta declaração, uma vez desfeita usando as definições, contém todo o conteúdo das reivindicações anteriores. As afirmações anteriores são úteis, pois ajudam a apontar por que devemos cuidar. A discussão enfatiza que se T fez o fator desta maneira, então um número de correções estatísticas simples seriam suficientes, embora não sejam.

Resta apenas exibir um exemplo de regressão logística simples comprovando a afirmação. Isso é muito fácil de usar R.

# attach our packages
library(wrapr)

# build our example data
# modeling y as a function of x1 and x2 (plus intercept)
d 
# fit a model at prevalence 0.2857143
m_0.29 

Agora observe que a ordem relativa das previsões nas linhas 1 e 5 são invertidas no modelo m_0.50 em relação à ordem dada pelo modelo m_0.29.

## [1] 0.2304816 0.1796789
d$pred_m_0.50[interesting_rows]
## [1] 0.3655679 0.3930810

Isso significa que nenhuma correção monótona que olhe apenas para as previsões pode fazer as mesmas adaptações que esses dois modelos personalizados de prevalência. E essa é a nossa demonstração.

O código-fonte completo para este exemplo pode ser encontrado aqui (e renderizado aqui).



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br