Question:
Comment créer un score à partir d'un ensemble mixte de variables positives et négatives?
radek
2011-03-11 23:23:08 UTC
view on stackexchange narkive permalink

J'ai 3 000 observations (communautés administratives) caractérisées par cinq variables. Quatre d'entre eux travaillent dans le sens «le plus, le pire» et un va dans le sens inverse.

J'aimerais créer une partition ou une liste ordonnée de ces observations qui prendront le mieux en compte toutes de ces cinq variables.

J'ai essayé le clustering en utilisant le package MCLUST dans R, et cela donne des résultats significatifs, mais il est difficile de décider de l'ordre des observations sur la base de l'appartenance au cluster.

Ma deuxième tentative a été d'exécuter PCA et d'extraire le premier composant, qui est plus proche de ce que j'aimerais obtenir.

Quelles autres solutions (basées sur R ou Stata de préférence) pourrais-je utiliser pour résoudre ce problème?

Quand vous dites «prendra le mieux en compte», qu'entendez-vous par «meilleur»? Par exemple. voulez-vous que les variables soient pondérées de manière égale ou voulez-vous donner plus de poids à certaines variables qu'à d'autres? Ou une autre façon de le dire, quel serait le but du score que vous aimeriez obtenir?
@SheldonCooper: Merci pour votre commentaire. Le but du score serait de déterminer la «position» relative des observations. D'une certaine manière, j'aimerais pouvoir dire quelle est la position d'une communauté particulière au sein de la population. Au départ, mon approche éviterait probablement les pondérations (ou utiliserait des pondérations basées sur les données?). Mais il pourrait être possible d'obtenir ces poids à partir d'un autre ensemble de données et de les utiliser plus tard également dans la veine similaire à ce que Gordon (1995) suggère http://jech.bmj.com/content/49/Suppl_2/S39.abstract
Quatre réponses:
#1
+7
Aniko
2011-03-12 01:47:59 UTC
view on stackexchange narkive permalink

Vous pourriez considérer les scores u tels que définis dans [1] Wittkowski, K. M., Lee, E., Nussbaum, R., Chamian, F. N. and Krueger, J. G. (2004), Combining plusieurs ordinales measures in Clinical studies. Statistiques en médecine, 23: 1579-1592. ( PDF)

L'idée de base est que pour chaque observation, vous comptez combien d'observations il y a par rapport à laquelle elle est nettement meilleure (quatre variables plus basses, une plus élevée), et comment beaucoup sont certainement pires, puis créent un score combiné.

Juste une question. Je comprends comment générer un score pour une variable en fonction de la position relative d'une observation. Quelle est la prochaine étape pour combiner les scores de cinq variables? Somme simple?
#2
+6
Jeromy Anglim
2011-03-12 12:02:41 UTC
view on stackexchange narkive permalink

Basé sur les données ou la théorie?

Le premier problème est de savoir si vous voulez que le composite soit axé sur les données ou axé sur la théorie? Si vous souhaitez former une variable composite, il est probable que vous pensez que chaque la variable de composant est importante pour mesurer un domaine global.

Dans ce cas, vous préférerez probablement un ensemble théorique de poids. Si, alternativement, vous êtes intéressé par ce qui est partagé ou commun entre les variables du composant, au risque de ne pas inclure l'une des variables car elle mesure quelque chose d'orthogonal ou moins lié à l'ensemble restant, alors vous voudrez peut-être explorer les données

Cette question correspond à la discussion dans la littérature sur la modélisation d’équations structurelles entre les mesures réflexives et formatives (par exemple, voir ici).

Quoi qu’il en soit vous faites, il est important d'aligner votre mesure avec votre question de recherche réelle.

Basé sur la théorie

Si le composite est théoriquement dirigé, vous voudrez former un composite pondéré des variables de composant où le poids attribué s'aligne sur votre pondération théorique du composant.Si les variables sont ordinales, vous devrez réfléchir à la façon de mettre à l'échelle la variable.Après avoir mis à l'échelle chaque variable de composant, vous devrez réfléchir à la pondération relative théorique et problèmes liés à la différence tous les écarts-types de la variable.Une stratégie simple consiste à convertir toutes les variables de composants en scores z et à additionner les scores z.Si vous avez des variables de composants, où certaines sont positives et d'autres négatives, vous devrez inverser soit juste les variables de composants négatives, soit seulement les variables de composants positives.

J'ai écrit un article sur la formation de composites qui aborde plusieurs scénarios de formation de composites.

Approches théoriques peut être implémenté facilement dans n'importe quel package statistique. score.items dans le package psych est une fonction qui le rend un peu plus facile, mais elle est limitée. Vous pouvez simplement écrire votre propre équation en utilisant une arithmétique simple, et peut-être la fonction scale .

Data Driven

Si vous êtes plus intéressé par les données, alors il existe de nombreuses approches possibles.

Prendre le premier composant principal semble être une idée raisonnable.

Si vous avez des variables ordinales, vous pourriez penser à l'ACP catégorielle qui permettrait aux variables des composants de être repondéré. Cela pourrait gérer automatiquement la quantification compte tenu des contraintes que vous fournissez.

(+1) À noter, une autre discussion intéressante sur les modèles formatifs vs réflexifs peut être trouvée dans le chapitre 3 de * Measuring the Mind *, par Denny Borsboom (Cambridge, 2005).
#3
+2
SheldonCooper
2011-03-13 08:12:27 UTC
view on stackexchange narkive permalink

Pour une mesure non ordinale, vous pouvez essayer MDS (mise à l'échelle multidimensionnelle). Cela peut être fait facilement dans R. Cela essaiera d'arranger les points sur une ligne (1d dans votre cas) de telle manière que les distances entre les points soient préservées.

Quelques remarques générales: comme vous l'avez probablement réaliser, la question est assez vague, et on ne peut pas dire grand-chose sans en savoir plus sur les données. Par exemple, la normalisation des variables (à zéro moyenne et variance unitaire) peut être appropriée ou non; la pondération égale de toutes les variables peut être appropriée ou non; etc. S'il ne s'agit pas d'une analyse exploratoire et que vous avez un score `` correct '' en tête, alors il peut être approprié d'apprendre un ensemble de poids soit sur un ensemble de données différent, soit sur un sous-ensemble de votre ensemble de données actuel, et en les utilisant poids à la place.

#4
+1
suprvisr
2011-03-30 23:54:57 UTC
view on stackexchange narkive permalink

Je suis désolé, car ce n'est peut-être pas une réponse claire à votre question, si vous utilisez ce "score total" comme prédicteur de quelque chose, pourquoi n'essayez-vous pas la régression et évaluez les résultats avec l'AUC du ROC?

ou l'inverse, peut-être utiliser des machines Neural Networks / Random Forest / Support Vector sur eux pour prédire un résultat donné?

Cordialement Luke



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 2.0 sous laquelle il est distribué.
Loading...