BASIC XAI com DALEX – Parte 2: Importância da variável baseada em permutação

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


BASIC XAI

BASIC XAI com DALEX – Parte 2: Importância da variável baseada em permutação

Introdução à exploração de modelo com exemplos de código para R e Python.

Por Anna Kozak

Bem-vindo à série “BASIC XAI com DALEX”.

Nesta postagem, apresentamos o importância variável baseada em permutação, o método agnóstico de modelo, que é o que podemos usar para qualquer tipo de modelo.

A primeira parte desta série você pode encontrar aqui BASIC XAI com DALEX – Parte 1: Introdução.

Então, vamos começar?

Primeiro – Por que precisamos da importância das variáveis ​​no modelo?

Ao construir um modelo, frequentemente nos perguntamos – Quais variáveis ​​são as mais importantes? Em que prestar atenção? Ao modelar o preço de um imóvel, gostaríamos de saber qual o impacto tanto no preço, se é a área ou talvez o ano de construção? Ao modelar o risco de crédito, consideramos o que influenciou o fato de os clientes não conseguirem um empréstimo.

Entre os métodos de avaliação da importância das variáveis, podemos distinguir alguns métodos para grupos específicos de modelos. Por exemplo:

Podemos identificar facilmente quais atributos são importantes em modelos aditivos, como regressão linear e logística. Eles são apenas coeficientes de modelo.

Podemos usar o método baseado em usa um cálculo da impureza de Gini para cada árvore e, em seguida, calcular uma média. Podemos comparar a importância relativa das pontuações médias de impureza de Gini.

Leia Também  Mapa de animação de falecimento COVID-19 | R-bloggers

Podemos usar o método baseado em dados fora da bolsa.

Embora alguns modelos ofereçam medidas específicas do modelo para a importância variável, não podemos comparar as importâncias entre as estruturas do modelo. Para contornar esse problema, podemos usar um método agnóstico de modelo, ou seja, aquele que funciona independentemente sobre a estrutura de um modelo. Um exemplo dessa medida é o importância variável baseada em permutação.

Segundo – Ideia de importância variável baseada na permutação

A ideia é muito simples, avaliar o quão importante é a variável V vamos comparar o modelo inicial com o modelo no qual o efeito da variável V é removido. Como remover o efeito da variável V? Na abordagem LOCO (deixar uma covariável de fora), treinamos novamente o modelo sem variável V. Mas na importância da variável baseada na permutação, adotamos uma abordagem diferente, o efeito de uma variável é removido por meio de uma reorganização aleatória dos dados. Seguindo a foto abaixo, tiramos o dados originais (parte esquerda da imagem), então nós troca (um mixer, que mistura os valores), e obtemos “novos dados, no qual calculamos a previsão.

Ideia de importância variável baseada na permutação

Se uma variável é importante em um modelo, depois de sua permutação, a previsão do modelo deve ser menos precisa. A importância da permutação de uma variável Eu é a diferença entre a previsão do modelo para dados originais e a previsão para dados com variável de permutação Eu:

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br
Importância variável baseada em permutação para o modelo f e variável Eu

Onde L_ {org} é o valor da função de perda para os dados originais, enquanto L_ {perm} é o valor da função de perda após a permutação do Eu-ésima variável. Observe que podemos usar uma função de perda de alguma função usada para avaliação do desempenho, como AUC (que não é uma função de perda, mas é uma medida popular de desempenho).

Leia Também  O Fincons Group é um parceiro-chave do 3º Fórum Anual de Banco Aberto e APIs

Terceiro – vamos obter um modelo em R e Python

Vamos escrever algum código. Ainda estamos trabalhando no DALEX apartamentos dados. Para calcular a importância da variável de permutação, usamos o model_parts () função. Podemos calcular a validade das variáveis ​​considerando apenas uma permutação, mas é recomendado repeti-la várias vezes e calcular a média dos resultados. Por padrão, no model_parts () função, temos 10 vezes de permutação. Além disso, devemos levar em consideração o função de perda, o padrão é 1-AUC para classificação e RMSE para regressão.

O quadro de dados de model_parts objeto, temos as variáveis ​​e a variação média após as permutações.

Abaixo está um gráfico que resume a importância da variável baseada na permutação. É importante notar que as barras começam no valor RMSE para o modelo nos dados originais (eixo x). O comprimento da barra corresponde à perda RMSE após permutações. Os boxplots mostram como as permutações for aleatórias diferem.

Como vemos, a variável mais importante é district_Srodmiescie, o preço mais alto do imóvel depende do bairro da cidade. Isso não deve ser uma surpresa, porque é um bairro no centro de Varsóvia.

Na próxima parte, falaremos sobre o método de Perfis de Dependência Parcial (PDP).

Muito obrigado a Przemyslaw Biecek e Hubert Baniecki por seu apoio neste blog.

Se você estiver interessado em outras postagens sobre ML explicável, justo e responsável, siga #ResponsibleML no meio.

Para ver mais conteúdo relacionado a R visite https://www.r-bloggers.com


BASIC XAI com DALEX – Parte 2: A importância da variável baseada em permutação foi originalmente publicada no ResponsibleML on Medium, onde as pessoas continuam a conversa destacando e respondendo a esta história.



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br