Prevendo o custo de classificação incorreta incorrido na falha do sistema de pressão de ar em veículos pesados

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


[Esteartigofoipublicadopelaprimeiravezem[Thisarticlewasfirstpublishedon Dados de histórias falam, e gentilmente contribuiu para os R-blogueiros]. (Você pode relatar um problema sobre o conteúdo desta página aqui)


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.

Abstrato

O sistema de pressão de ar (APS) é um tipo de função usada em veículos pesados ​​para auxiliar na frenagem e troca de marchas. O conjunto de dados de falha do APS consiste nos dados diários do sensor operacional de caminhões Scania com falha. O conjunto de dados é crucial para o fabricante, pois permite isolar os componentes que causaram a falha. No entanto, valores ausentes e problemas de classe desequilibrados são as duas limitações mais desafiadoras desse conjunto de dados para prever a causa da falha. Os resultados da previsão podem ser afetados pela maneira de lidar com esses valores ausentes e o problema de classe desequilibrada. Neste relatório, examinei e apresentei o impacto de três técnicas de balanceamento de dados, a saber: sob amostragem, sobre amostragem e Técnica de Minoria Sintética Sobre Amostragem na produção de resultados significativamente melhores. Também realizei uma comparação empírica de seu desempenho aplicando três classificadores diferentes, a saber: Regressão Logística, Máquinas de Reforço de Gradiente e Análise Discriminante Linear neste conjunto de dados altamente desequilibrado. O objetivo principal deste estudo é observar o impacto das técnicas de balanceamento de dados acima mencionadas no aprimoramento dos resultados das previsões e na realização de uma comparação empírica para determinar o melhor modelo de classificação. Descobri que a técnica de super amostragem de regressão logística é o método de maior influência para melhorar o desempenho da previsão e a taxa de falsos negativos.

1. Introdução

Esse conjunto de dados é criado pela empresa Scania CV AB para analisar falhas de APS e dados operacionais do Scania Trucks. A classe positiva do conjunto de dados consiste em falhas de componentes para um componente específico do sistema APS. A classe negativa consiste em caminhões com falhas para componentes não relacionados ao APS.

2. Objetivo

O objetivo deste relatório é duplo, a saber;

uma. Desenvolver um Modelo Preditivo (MP) para determinar a classe de falha

b. Determinar o custo incorrido pela empresa para classificação incorreta.

3. Análise de Dados

Uma análise sistemática dos dados foi realizada para responder aos objetivos.

A. Fonte de dados

Para esta análise, usei o conjunto de dados hospedado no Repositório UCI ML

B. Análise Exploratória de Dados

Havia dois conjuntos de dados, o conjunto de treinamento e o conjunto de teste.

Eu. Observações
  • O conjunto de treinamento consistiu em 60.000 observações em 171 variáveis ​​e
  • O conjunto de testes consiste em 16.000 observações em 171 variáveis.
  • Os valores ausentes foram codificados como “na”
  • O conjunto de treinamento teve 850015 valores ausentes
  • O conjunto de testes tinha 228680 valores ausentes
  • O resultado ou a variável dependente foi altamente distorcida ou desequilibrada, como mostra a Figura 1

plot1

Figura 1: Distribuição de classe desequilibrada

ii. Etapas de redução de dimensionalidade para dados de treinamento

O conjunto de treinamento continha 60.000 observações em 171 variáveis, das quais a variável dependente era de natureza binária denominada “classe”. Eu tive que encontrar as variáveis ​​que representavam a variação máxima. Eu tomei as seguintes medidas para redução de dimensionalidade:

Leia Também  Como definir seu plano financeiro de longo prazo?

a) Verifique se há variáveis ​​com mais de 75% de dados ausentes

Encontrei 6 variáveis ​​independentes que satisfaziam essa propriedade. Eu os removi da análise subsequente. A contagem de variáveis ​​independentes diminuiu para 165.

b) Verifique se há variáveis ​​com mais de 80% de valores nulos

Encontrei 33 variáveis ​​independentes que satisfaziam essa propriedade. Eu os removi da análise subsequente. A contagem de variáveis ​​independentes diminuiu para 132.

c) Verifique as variáveis ​​em que o desvio padrão é zero

Encontrei 1 variável independente que satisfazia essa propriedade. Eu o removi da análise subsequente. A contagem de variáveis ​​independentes diminuiu para 131.

d) Verifique variáveis ​​com propriedade de variação próxima de zero

Encontrei 10 variáveis ​​independentes que satisfaziam essa propriedade. Eu os removi da análise subsequente. A contagem de variáveis ​​independentes diminuiu para 121.

e) Falta de detecção e tratamento de dados

Como todas as variáveis ​​independentes eram de natureza contínua, usei mediana para imputar os valores ausentes nelas. Na Figura 2, mostrei a visualização do padrão de dados ausentes.

plot2

Figura 2: Visualização de dados ausentes para o conjunto de dados de treinamento

Na Figura 2, o histograma de cor preta mostra realmente o padrão de dados ausentes. Como o número de variáveis ​​independentes era enorme, nem todas são mostradas e, portanto, a cor é preta.

f) Detecção e tratamento de correlação

Eu achei várias variáveis ​​contínuas altamente correlacionadas. Eu apliquei uma abordagem não supervisionada, a Principal Component Analysis (PCA), para extrair variáveis ​​não correlacionadas. O PCA também ajuda na redução de dimensionalidade e fornece variáveis ​​com variação máxima. Na Figura 3, mostrei os principais componentes importantes.

plot3

Figura 3: Componentes principais importantes para o conjunto de dados de treinamento

C. Modelagem preditiva

Como observado acima (consulte a seção B-i), esse conjunto de dados foi gravemente desequilibrado. Se não tratada, as previsões estarão incorretas. Agora, mostrarei as previsões no conjunto de dados desequilibrado original, seguidas pelas previsões no conjunto de dados balanceado. Depois disso, forneci uma discussão sobre o mesmo.

Eu. Suposição

Nesta análise, meu foco está em prever corretamente a classe positiva, ou seja, os caminhões com falhas de componentes para um componente específico do sistema APS.

ii. Divisão de dados

Criei uma função de controle baseada na validação cruzada de três vezes. Depois, divido o conjunto de treinamento em 70% e 30%. O conjunto de dados de treinamento continha 42.000 observações em 51 variáveis. O conjunto de testes continha 18.000 observações em 51 variáveis.

iii. Justificação na escolha de métrica do classificador

Observe que eu escolhi a Área de recuperação de precisão sob a curva (PR AUC) como uma métrica de classificação sobre a Área de curva de operação do receptor sob a curva (ROC AUC).

A principal diferença é que a ROC AUC será a mesma, independentemente da probabilidade de linha de base, mas a PR AUC pode ser mais útil na prática para problemas do tipo agulha no palheiro ou problemas em que a classe “positiva” é mais interessante que a negativa classe. E esta é minha justificativa fundamental para a escolha da AUC do PR em detrimento do ROC da AUC, porque estou interessado em prever a classe positiva. Isso também responde à métrica de desafio na redução dos erros de tipo 1 e tipo II.

iv. Modelagem preditiva no conjunto de dados de treinamento desequilibrado

Eu escolhi três classificadores, nomeadamente algoritmos de regressão logística (logreg), análise discriminante linear (lda) e máquina de aumento de gradiente (gbm) para análise comparativa de previsão. Também escolhi três técnicas de amostragem para o balanceamento de dados, a saber, sob amostragem, sobre amostragem e técnica de minoria sintética sobre amostragem (SMOTE). O modelo de regressão logística deu a maior sensibilidade.

E na Figura 4, mostrei o gráfico de pontos que representa a visualização das pontuações PR-AUC no conjunto de dados desequilibrado.

plot4

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Figura 4: Gráfico de pontos no conjunto de dados de treinamento desequilibrado

Leia Também  Quebra-cabeça Le Monde [#1147] | R-bloggers
v. Desafie a computação métrica no conjunto de dados de treinamento desequilibrado

Métrica de desafio é a métrica de custo da classificação incorreta. Onde custam 1 = 10 e custam 2 = 500

Custo total = 10 * CM.FP + 500 * CM.FN

Custo total = 1055 + 500149 = $ 75, 050

A empresa terá um custo de classificação incorreta de US $ 75.050 no conjunto de dados desequilibrado.

vi. Modelagem preditiva em conjunto de dados de treinamento balanceado

Para o balanceamento de dados, escolhi três métodos diferentes, sub-amostragem, super-amostragem e Técnica de Minoria Sintética sobre Amostragem (SMOTE). Eu achei a técnica de super amostragem a mais eficaz para o modelo de regressão logística. Então eu apliquei essa técnica no conjunto de dados de treinamento balanceado

Agora, mostrarei a modelagem preditiva no conjunto de dados de treinamento equilibrado. Como mostrado anteriormente, dividi o conjunto de dados em uma proporção de 70 a 30 e apliquei uma validação cruzada de três vezes. Em seguida, apliquei o algoritmo de regressão logística por amostragem ascendente, amostragem descendente e minoria sintética sobre os métodos de amostragem mostrados na Figura 5.

plot5

Figura 5: Gráfico de pontos no conjunto de dados de treinamento balanceado

vii. Desafie a computação métrica em um conjunto de dados de treinamento balanceado

Métrica de desafio é a métrica de custo da classificação incorreta. Onde custam 1 = 10 e custam 2 = 500

Regressão logística baseada em amostragem excessiva

Custo total = 10 * CM.FP + 500 * CM.FN

Custo total = 10540 + 50033 = $ 21.900

O benefício do balanceamento de dados é evidente. Ao extrair as variáveis ​​independentes com variação e balanceamento, pude reduzir o custo de classificação incorreta dos US $ 75.050 iniciais para US $ 21.900 no conjunto de dados de treinamento balanceado.

viii. Desafie a computação métrica no conjunto de dados de teste balanceado

Em seguida, aplicarei a regressão logística sobre o método amostrado ao conjunto de dados de teste limpo.

Métrica de desafio é a métrica de custo da classificação incorreta. Onde custam 1 = 10 e custam 2 = 500

Regressão logística baseada em amostragem em dados de teste

Custo total = 10 * CM.FP + 500 * CM.FN

Custo total = 10359 + 5008 = $ 7.590

O custo previsto de classificação incorreta é de US $ 7.590.

Discussão

Sobreamostragem e subamostragem podem ser usadas para alterar a distribuição de classe dos dados de treinamento e os dois métodos foram usados ​​para lidar com o desequilíbrio de classe. O motivo pelo qual alterar a distribuição de classe dos dados de treinamento ajuda a aprender com conjuntos de dados altamente distorcidos é que ele impõe efetivamente custos não uniformes de classificação incorreta. Existem desvantagens conhecidas associadas ao uso da amostragem para implementar a aprendizagem sensível aos custos. A desvantagem da sub-amostragem é que ela descarta dados potencialmente úteis. A principal desvantagem da sobreamostragem, na minha perspectiva, é que, ao fazer cópias exatas dos exemplos existentes, é provável que exista uma adaptação excessiva.
Tradicionalmente, as métricas mais frequentemente usadas são precisão e taxa de erro. Considerando um problema básico de classificação de duas classes, {p, n} seja o verdadeiro rótulo de classe positiva e negativa e {Y, N} sejam os rótulos previstos de classe positiva e negativa. Em seguida, uma representação do desempenho da classificação pode ser formulada por uma matriz de confusão (tabela de contingência), conforme ilustrado na Tabela 3. Essas métricas fornecem uma maneira simples de descrever o desempenho de um classificador em um determinado conjunto de dados. No entanto, eles podem enganar em determinadas situações e são altamente sensíveis a alterações nos dados. Na situação mais simples, se um determinado conjunto de dados incluir 5% dos exemplos de classes minoritárias e 95% dos exemplos majoritários, uma abordagem ingênua de classificar cada exemplo como um exemplo de classe majoritária forneceria uma precisão de 95%. Considerando o valor nominal, a precisão de 95% em todo o conjunto de dados parece excelente; no entanto, da mesma forma, essa descrição falha ao refletir o fato de que 0% dos exemplos minoritários são identificados. Ou seja, a métrica de precisão nesse caso não fornece informações adequadas sobre a funcionalidade de um classificador em relação ao tipo de classificação necessária.
Embora as curvas ROC forneçam métodos poderosos para visualizar a avaliação de desempenho, elas também têm suas próprias limitações. No caso de conjuntos de dados altamente inclinados, observa-se que a curva ROC pode fornecer uma visão excessivamente otimista do desempenho de um algoritmo. Sob tais situações, as curvas de relações públicas podem fornecer uma representação mais informativa da avaliação de desempenho. Para ver por que a curva PR pode fornecer representações mais informativas da avaliação de desempenho com dados altamente desequilibrados, vamos considerar uma distribuição em que exemplos negativos excedem significativamente o número de exemplos positivos (ou seja, N_c> P_c). Nesse caso, se o desempenho de um classificador tiver uma grande alteração no número de falsos positivos, ele não alterará significativamente a taxa de FP, pois o denominador N_c é muito grande. Portanto, o gráfico ROC falhará ao capturar esse fenômeno. A métrica de precisão, por outro lado, considera a razão de TP em relação a TP + FP; portanto, ele pode capturar corretamente o desempenho dos classificadores quando o número de falsos positivos muda drasticamente. Portanto, como é evidente neste exemplo, a AUC do PR é uma técnica vantajosa para avaliação de desempenho na presença de dados altamente distorcidos. Outra falha das curvas ROC é que elas não têm a capacidade de fornecer intervalos de confiança no desempenho de um classificador e são incapazes de inferir a significância estatística do desempenho de diferentes classificadores. Eles também têm dificuldades em fornecer informações sobre o desempenho de um classificador em relação a diferentes probabilidades de classe ou custos de classificação incorreta. Para fornecer uma métrica de avaliação mais abrangente para resolver esses problemas, sugerem-se curvas de custo ou AUC de PR.

Leia Também  Notícias manchetes análise de texto
Conclusão

Nesse conjunto de dados, houve vários problemas, notadamente o principal foi o problema de desequilíbrio de classe, seguido por valores ausentes e outros problemas que destacamos na subseção 3iii. No entanto, o desafio não era a questão do desequilíbrio de classe em si, mas a escolha de uma métrica apropriada que pudesse responder corretamente à suposição que eu havia formulado na subseção Ci. A troca entre PR AUC e AUC é discutida na subseção 3iii. Além disso, pude reduzir o custo da classificação incorreta para $ 7.590 por amostragem excessiva dos dados.

Apêndice A

Explicação dos termos estatísticos utilizados neste estudo
  • Variável: é qualquer característica, número ou quantidade mensurável. Exemplo, idade, sexo, renda são variáveis.
  • Variável contínua: é uma variável numérica ou quantitativa. As observações podem assumir qualquer valor entre um conjunto de números reais. Exemplo, idade, tempo, distância.
  • Variável independente: também conhecida como variável preditora. É uma variável que está sendo manipulada em um experimento para observar um efeito na variável dependente. Geralmente em um experimento, a variável independente é a “causa”.
  • Variável dependente: também conhecida como variável de resposta ou resultado. É a variável que precisa ser medida e é afetada pela manipulação de variáveis ​​independentes. Geralmente, em um experimento, é o “efeito”.
  • Variação: explica a distribuição dos dados, ou seja, a que distância um conjunto de números aleatórios é distribuído em relação aos valores originais.
  • Análise de regressão: é um conjunto de métodos estatísticos usados ​​para a estimativa de relacionamentos entre uma variável dependente e uma ou mais variáveis ​​independentes. Pode ser utilizado para avaliar a força do relacionamento entre variáveis ​​e para modelar o futuro relacionamento entre elas.

Apêndice B

O código R deste estudo pode ser baixado aqui

var vglnk = {key: ‘949efb41171ac6ec1bf7f206d57e90b8’};

(função (d, t) {
var s = d.createElement
s.src = ‘//cdn.viglink.com/api/vglnk.js’;
var r = d.getElementsByTagName
} (documento, ‘script’));

Para Deixe um comentário para o autor, siga o link e comente no blog: Dados de histórias falam.

R-bloggers.com oferece atualizações diárias por email sobre notícias e tutoriais do R sobre o aprendizado do R e muitos outros tópicos. Clique aqui se você deseja publicar ou encontrar um emprego em ciência da dados / R.


Deseja compartilhar seu conteúdo com R-blogueiros? clique aqui se você tiver um blog ou aqui se não tiver.



cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br