Question:
Est-il approprié d'identifier et de supprimer les valeurs aberrantes car elles posent des problèmes?
Sarah Brcan
2011-09-13 07:14:05 UTC
view on stackexchange narkive permalink

Tout cela concerne ma thèse de spécialisation en psychologie.

J'ai deux groupes (Autisme et contrôle) et tous les participants ont accompli quatre tâches. Il est très important pour mon étude que les groupes ne diffèrent pas sur le temps de réaction dans chacune des tâches. Cependant, ils le font. Le groupe autiste a répondu plus rapidement que le groupe témoin. Cela confond les résultats pour la construction que nous voulons réellement étudier.

J'ai pensé que je pourrais corriger la différence en excluant les valeurs aberrantes de l'étude. J'ai essayé d'identifier les valeurs aberrantes à la fois au niveau univarié (Boxplots, SD = +/- 2,5, pour chacune des quatre tâches) et au niveau multivarié (Mahalanobis Dsq). Aucun participant n'est considéré comme une valeur aberrante. Ensuite, j'ai pensé exclure les participants qui ont des temps de réaction moyens faibles («faible» étant une valeur arbitraire), mais malgré cela, la différence entre les deux groupes était significative.

  • Puis-je faire autre chose?
  • Et comment signaler un tel processus dans ma thèse?
Pouvez-vous décrire un peu pourquoi avoir des RT rapides dans ces tâches confond vos résultats?
Aussi difficile que cela puisse paraître: en supposant que votre analyse elle-même soit correcte, vous ne pouvez pas faire grand-chose sans modifier vos données ... Cependant, peut-être d'abord vérifier les hypothèses. Quelle est la taille de votre échantillon? Quel test avez-vous utilisé? Dans le cas d'un test avec hypothèses, les avez-vous vérifiées (par exemple normalité si le test t a été utilisé)? Quelle est la valeur p résultante? Avec un peu de chance, il sera peut-être possible de contester les résultats de votre étude;)
Sait-on déjà que les sujets autistes qui font ce test ont un temps de réaction plus rapide - avez-vous cherché une chose et en avez-vous trouvé une autre? Et s'ils ont un temps de réaction plus rapide, est-ce remarquable?
Comment les données ont-elles été collectées? Êtes-vous sûr que c'est exact? Y a-t-il une erreur de saisie de données / une mauvaise communication qui gêne les choses? Les unités de mesure sont-elles cohérentes entre les répondants pour vos variables d'intérêt? Je me rends compte que certains d'entre eux peuvent ne pas être pertinents, mais le but est de vous faire réfléchir aux données elles-mêmes et d'essayer de comprendre pourquoi elles peuvent ne pas correspondre au reste des données. Peut-être que la réponse est que le phénomène que vous observez est plus complexe qu'on ne le pensait initialement et que vous êtes en train de faire des recherches révolutionnaires!
Il semble que vous ayez découvert quelque chose :-). Pourquoi ne pas étudier les «valeurs aberrantes» plutôt que de les jeter (et perdre ainsi tout droit de généraliser vos conclusions à quiconque au-delà des sujets que vous avez réellement étudiés)?
Trois réponses:
#1
+14
Michael Lew
2011-09-13 09:43:48 UTC
view on stackexchange narkive permalink

Il est très important que vous envisagiez la possibilité que les catégories de sujets aient une réelle différence dans les temps de réaction. Si tel est le cas, tout ce qui fait disparaître la différence mènera à des résultats potentiellement artificiels. Ne supposez pas qu'un effet gênant est le résultat de la présence de valeurs aberrantes.

Vous pourriez peut-être rechercher une relation entre le temps de réaction et une autre mesure de résultat. La forme de la relation peut différer entre les sujets autistes et les sujets normaux.

#2
+8
Peter Flom
2011-09-13 14:55:55 UTC
view on stackexchange narkive permalink

Vous ne devez pas exclure les valeurs aberrantes simplement parce qu'elles causent des problèmes, ni utiliser un sous-ensemble de vos données parce que les données complètes posent des problèmes. Aucun de ces éléments n'a résolu le "problème" dans votre cas, mais même s'ils le faisaient, ce ne serait pas correct.

Vous n'avez pas donné beaucoup de détails sur ce que vous essayez de faire ou comment vous le faites, mais pouvez-vous ajouter le temps de réaction comme covariable?

L'ajouter comme covariable était aussi ma pensée initiale, mais je vois un problème avec cela, un problème qui est conceptuel / logique plutôt que purement statistique. Prendre cette voie signifierait tester les différences entre les groupes comme si chaque groupe possédait un niveau moyen de temps de réaction. Puisqu'il s'agit de quelque chose qui n'est clairement pas vrai dans les populations, est-ce absurde d'essayer cet angle? ... Vous obtiendrez probablement des réponses supplémentaires utiles si vous expliquez pourquoi vous pensez que le temps de réaction comparable est primordial dans votre étude.
#3
-1
Wake2Sleep
2011-09-14 20:28:16 UTC
view on stackexchange narkive permalink

Il semble que vous deviez explorer un peu plus vos données. Pourquoi n'essayez-vous pas des techniques non supervisées comme le clustering? Les valeurs aberrantes apparaissaient dans leurs propres groupes. Et vous penseriez qu'il y aurait une sorte de regroupement de vos contrôles.

Quoi qu'il en soit, vous pouvez toujours avoir une thèse sur le fait de ne pas voir un effet que vous vous attendiez à voir. Vous auriez à expliquer comment vos données / méthode n'étaient pas erronées. Et ajoutez une section sur les variables que vous pourriez ajouter pour expliquer pourquoi vos sujets de test et vos contrôles se regroupent. Ce travail aide encore les futurs chercheurs.

Je trouve dommage que cette question ait reçu deux votes négatifs (au moment de la rédaction de ce commentaire). Bien que je ne sois pas nécessairement d'accord avec l'intimé dans ce contexte, il mérite certainement quelques commentaires sur les raisons pour lesquelles il est suffisamment inapproprié pour un vote défavorable.
Andy W: Eh bien dit!


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...