Réduire le taux de faux positifs

Question:

ayush biyani

2010-12-24 12:49:14 UTC

view on stackexchange narkive permalink

J'exécute un modèle pour un problème dans le domaine de l'assurance. Les résultats finaux montrent un x faux positif et un y faux négatif. J'utilise SAS Enterprise Miner pour cela. Quelqu'un peut-il me suggérer comment réduire les faux positifs? Je sais pour cela que je dois augmenter le faux négatif. Je veux savoir deux choses:

Y a-t-il une option dans e-miner où je peux donner plus de poids aux faux négatifs et moins aux faux positifs?
Existe-t-il une approche générale de la modélisation qui nous indique des moyens de réduire les faux négatifs ou s'agit-il simplement d'une approche à succès et d'essai?

Pourriez-vous s'il vous plaît ajouter des informations sur la méthode que vous utilisez?

Et s'il vous plaît ajouter des noms googlables du logiciel ou au moins des liens vers leurs sites.

Quatre réponses:

steffen

2010-12-27 02:51:31 UTC

view on stackexchange narkive permalink

Concernant la première (et la deuxième) question: Une approche générale pour réduire les erreurs de classification en entraînant de manière itérative les modèles et en repondant les lignes (en fonction d'une erreur de classification) consiste à Booster. Je pense que vous pourriez trouver cette technique intéressante.

Concernant la deuxième question: La question me semble un peu naïve (mais je n'ai peut-être pas compris votre véritable intention), car erreur de classification erronée = l'amélioration des performances du modèle est l'un des défis du Data Mining / Machine Learning. Donc, s'il y avait une stratégie générale de travail de tous les temps, nous aurions tous été remplacés par des machines (plus tôt que nous le ferons de toute façon). Je pense donc que oui , l’approche générale ici est un essai et une erreur éclairés . Je suggère cette question, Meilleure classification des valeurs par défaut dans la régression logistique, qui peut vous donner quelques idées pour le questionnement et l'amélioration du modèle.

Je suggère de jouer un peu et ensuite revenez poser des questions plus spécifiques. Il est difficile de répondre aux questions générales concernant l'amélioration du modèle sans données et / ou informations supplémentaires sur les circonstances. Bonne chance!

mariana soffer

2010-12-24 14:47:24 UTC

view on stackexchange narkive permalink

Ce que vous pouvez faire si vous ne trouvez pas l'option de pondération est de créer vous-même le même effet, en augmentant la quantité de positifs, par exemple vous pouvez donner comme entrée à l'algorithme 2 fois chacun des positifs connus un congé les négatifs comme ils où. Vous pouvez même l'augmenter 10 fois, il s'agit d'expérimenter pour vous rapprocher le plus possible du meilleur résultat possible.

Oui, cela peut être fait si l'algorithme de classification ne peut pas utiliser directement les poids (par exemple, Naive Bayes est capable de le faire). Cependant, il est important de noter qu'une validation attentive est absolument nécessaire, car cette approche peut induire un biais d'échantillonnage dans le modèle.

@ steffen - pouvez-vous s'il vous plaît élaborer sur le poids ... Je ne l'ai pas compris..Je n'ai pas compris la signification des poids ici..Est-ce que cela a quelque chose à voir avec l'option de poids dans la logistique de proc ... pouvez-vous s'il vous plaît xpliquer ceci un peu plus ?? Merci d'avance.

user89748

2015-09-18 12:14:49 UTC

view on stackexchange narkive permalink

Sous Sélection du modèle, choisissez "Erreur de classification de validation" comme critère de sélection de modèle. Cela sélectionnera le modèle avec le taux d'erreurs de classification le plus bas. Ou utilisez la matrice des profits / pertes et associez une fonction de coût à votre faux positif ou faux négatif.

Vous pouvez vous débarrasser de tous les faux positifs si vous arrêtez d'appeler quelque chose de positif et estimez avec précision la probabilité de l'événement.

La proportion d'erreurs de classification est une règle discontinue de notation de l'exactitude incorrecte.Il est optimisé par un faux modèle.

Rutuja

2016-04-25 04:00:23 UTC

view on stackexchange narkive permalink

Oui, il est appelé comme seuil sous l'onglet évaluer . Vous devez tout exécuter une fois pour vérifier les graphiques afin de décider de votre seuil optimal (c'est-à-dire plus de vrais positifs ou plus de vrais négatifs en fonction de tous les taux). Placez le module de coupure après chaque modèle (régression, arbre, etc.) et vérifiez les résultats pour ce module. Vous pouvez ensuite modifier la valeur spécifiée par l'utilisateur du point de coupure pour obtenir le taux exact pour le TP / TN ou le taux global d'erreur de classification symétrique. Puis relancez le tout.

ⓘ

Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 2.0 sous laquelle il est distribué.

À propos - jargon juridique