Question:
Puis-je supprimer un nombre excessif de valeurs aberrantes multivariées, comme plus de 10% dans l'échantillon?
Emily Jones
2011-09-04 09:20:03 UTC
view on stackexchange narkive permalink

J'ai un ensemble de données avec environ 9000 cas, j'exécute une analyse factorielle et j'ai trouvé que 1100 cas sont identifiés comme étant une valeur aberrante multivariée. Est-ce que je peux prendre de l'avance et le supprimer?

Je voulais dire plus de 10%!
En étiquetant cette question avec «analyse factorielle», pourriez-vous développer un peu plus le but / le contexte de votre étude? Surtout, vos unités statistiques sont considérées comme des «valeurs aberrantes» par rapport à quoi?
quelle méthode avez-vous utilisée pour les classer comme valeurs aberrantes?
Trois réponses:
#1
+10
Karl
2011-09-04 09:38:29 UTC
view on stackexchange narkive permalink

Il est difficile de voir comment 10% des données pourraient être qualifiées de périphériques.

Rien n'indique que vous ne pouvez pas les omettre, tant que vous dites clairement exactement ce que vous avez fait. Mais, cette instance particulière semble un peu extrême.

En ce qui concerne les valeurs aberrantes, je demande d'abord, sont-elles des erreurs? Si ce sont des erreurs, je voudrais les corriger; si je ne pouvais pas les réparer, je serais raisonnablement à l'aise de les omettre (même si je m'inquiéterais des biais).

Si elles ne semblent pas être des erreurs (ou s'il n'y a aucun moyen de le dire), je demander: affectent-ils les résultats? Si les omettre donne la même réponse que non, je serais heureux et passerais à autre chose. Si c'est important, je chercherais une méthode d'analyse plus robuste.

Je regarderais de plus près votre méthode d'identification des valeurs aberrantes: fait-elle une sorte d'hypothèse qui est clairement erronée?

Plus important encore, j'examinerais beaucoup de tracés différents des données, pour voir ce qui conduit ces 10% de points à être appelés des valeurs aberrantes, et si cela semble raisonnable (même si je je ne vois pas comment cela pourrait être).

J'ai utilisé mahalanobis pour détecter les valeurs aberrantes multivariées et c'est en fait plus de 10% des données qui sont des valeurs aberrantes. J'ai vérifié s'il y avait des entrées incorrectes mais c'était bien. J'ai examiné les valeurs aberrantes univariées et c'était bien, mais lorsque j'ai effectué une analyse multivariée, plus de 10% des données étaient des valeurs aberrantes. Donc, je peux continuer avec la suppression tant que je le déclare?
Les erreurs de transcription des données @Emily, ne sont pas la seule forme d'erreur de mesure. Plus généralement, Karl faisait probablement également référence aux erreurs de l'appareil de mesure lui-même. Si votre outil de mesure avait une valeur moyenne nulle très élevée ajoutée de manière aléatoire, vous souhaiterez peut-être supprimer les cas extrêmes de l'ensemble de données. Là où vous avez des ennuis, c'est lorsque, par exemple, votre outil de mesure ne signale que des valeurs élevées de manière inexacte (auquel cas vous auriez un biais).
Je ne sais pas comment le seuil aberrant sur la distance de Mahalanobis a été défini, mais je suppose qu'il a été dérivé sous l'hypothèse d'une normalité multivariée. Et c'est probablement l'hypothèse MVN qui est suspecte, pas les points. Jetez un œil à un histogramme des distances de Mahalanobis.
Je vais regarder l'histogramme des mahalanobis. Je n'avais pas pensé à ça. Merci!
#2
+4
Peter Flom
2011-09-04 16:29:19 UTC
view on stackexchange narkive permalink

En plus de l'excellent point de @karl broman, je suis curieux de savoir combien il y a de variables. Vous pourriez être confronté à la "malédiction de la dimensionnalité".

De plus, je ne supprimerais PAS les valeurs aberrantes simplement à cause d'un seuil arbitraire. Vous n'avez pas dit ce que vous étiez en train d'étudier, mais, souvent, les valeurs aberrantes sont là où se trouve l'intérêt.

Et je suis tout à fait d'accord avec le point de vue de @Karl sur le fait d'examiner d'abord les graphiques - BEAUCOUP de graphiques .

J'ai 171 variables. J'essaie de connaître la structure factorielle de l'enquête. Il est si long que nous essayons de le raccourcir, alors je le fais passer par une analyse factorielle et c'est à ce moment-là que je rencontre ce grand nombre de valeurs aberrantes. Quand vous parlez de graphiques, vous voulez dire tracer chacune des deux variables?
Je suis d'accord avec Peter - je n'aime pas jeter des données parce qu'elles ne sont pas conformes aux attentes.
OK, nous apprenons donc progressivement les données. L'enquête est-elle nouvelle ou existante? Que voulait-il faire? Pourquoi y a-t-il 171 questions dans l'enquête? Comment l'analyse factorielle aidera-t-elle à la raccourcir? L'analyse factorielle trouve des variables latentes - mais les variables latentes sont * latentes *.
c'est un existant, mais nous avons également inclus des 56 éléments plus récents. Le but est de faire une mesure plus forte puisque nous avons un facteur qui comporte 14 éléments. Nous explorons également comme nous l'avons ajouté dans ces 56 éléments. J'ai couru les histogrammes pour le mahalanobis et sa courbe u presque plate. Je ne sais pas ce que ça veut dire !!!!
@emily Je ne comprends pas pourquoi vous avez besoin d'une mesure plus forte car "un facteur a 14 éléments". Vous auriez besoin d'une mesure plus forte si vous aviez des preuves d'un manque de fiabilité ou d'un manque de validité. Quelles étaient les propriétés psychométriques de l'échelle originale?
#3
+4
rolando2
2011-09-05 20:53:58 UTC
view on stackexchange narkive permalink

Bien que les sujets ci-dessus soient intéressants, avec 171 éléments, je pense que la validité va être une préoccupation qui prime sur les statistiques. Il y a un risque réel que les gens répondent mécaniquement, résultant en une ligne droite ou en un facteur initial très important qui représente un effet de halo ou de corne. Je pense que votre équipe devrait être en mesure d'utiliser des critères non statistiques pour réduire l'enquête à un niveau plus gérable qui la rendra plus digne des analyses statistiques que vous souhaitez effectuer.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...