Question:
Comment utiliser les variables dérivées de l'analyse factorielle comme prédicteurs dans la régression logistique?
user3358
2011-02-22 09:24:55 UTC
view on stackexchange narkive permalink

Contexte

J'ai une enquête qui pose 11 questions sur l'auto-efficacité. Chaque question a 3 options de réponse (pas d'accord, d'accord, tout à fait d'accord). Neuf questions portent sur l'estime de soi. J'ai utilisé une analyse factorielle des 11 items d'auto-efficacité et extrait deux facteurs.

$ x_1 $ à $ x_ {11} $ désignent les 11 questions d'auto-efficacité de l'enquête, et $ f_1 $ ($ x_1 $ à $ x_6 $), $ f_2 $ ($ x_7 $ à $ x_ {11} $) désignent les deux facteurs que j'ai obtenus de l'analyse factorielle. $ y $ est une variable dépendante.

Ensuite, j'ai créé deux nouvelles variables:

  f1 = mean (x1 à x6); f2 = moyenne (x7-x11). 

La régression logistique ressemblerait donc à ceci:

  y = a + bf1 + cf2 + ....  

Ma question:

  • Puis-je utiliser ces deux facteurs comme variables prédictives dans mon modèle de régression logistique multivariée?
  • Dois-je calculer la moyenne de chaque élément de chaque facteur et utiliser cette moyenne comme variable continue dans mon modèle de régression logistique?
  • Est-ce une utilisation appropriée de l'analyse factorielle?
Quelques questions: $ y $ est-il univarié? Ensuite, vous avez une régression logistique multiple, pas une régression logistique multivariée. Comment faites-vous l'analyse factorielle? Bien qu'il existe des méthodes applicables aux variables ordinales qui sont analogues à l'analyse factorielle pour les variables manifestes continues, je ne vois pas clairement ce que vous utilisez. Enfin, que considérez-vous comme une utilisation inappropriée de l'analyse factorielle? Si vous considérez cela comme une technique de réduction de dimension (transformant 11 variables en 2), il n'y a rien de mal en soi. Que ce soit une bonne idée ou non est une autre question.
Quatre réponses:
#1
+11
chl
2011-02-22 17:23:45 UTC
view on stackexchange narkive permalink

Si je vous comprends bien, vous utilisez FA pour extraire deux sous-échelles de votre questionnaire en 11 éléments. Ils sont censés refléter certaines dimensions spécifiques de l'auto-efficacité (par exemple, l'auto-régulation vs l'auto-assurance).

Ensuite, vous êtes libre d'utiliser individual mean (ou somme) calculés sur les deux sous-échelles comme prédicteurs dans un modèle de régression. En d'autres termes, au lieu de considérer 11 scores d'éléments, vous travaillez maintenant avec 2 sous-scores, calculés comme décrit ci-dessus pour chaque individu. La seule hypothèse qui est faite est que ces scores reflètent la localisation d'une personne sur une "construction hypothétique" ou une variable latente, définie comme une échelle continue.

Comme @JMS l'a dit, il y a d'autres problèmes que vous pourriez clarifier davantage , en particulier quel type de FA a été fait. Un problème subtil est que l'erreur de mesure ne sera pas prise en compte par une approche de régression standard. Une alternative consiste à utiliser des modèles d'équations structurelles ou tout autre modèle à variables latentes (par exemple, ceux provenant de la littérature IRT), mais ici, l'approche de régression devrait fournir une bonne approximation. L'analyse des variables ordinales (item de type Likert) a été discutée ailleurs sur ce site.

Cependant, dans la pratique actuelle, votre approche est ce que l'on trouve couramment lors de la validation d'un questionnaire ou de la construction de règles de notation: nous utilisons une combinaison pondérée ou non pondérée de scores d'éléments (par conséquent, ils sont traités comme des variables numériques) pour rapporter emplacement individuel sur le (s) trait (s) latent (s) considéré (s).

#2
+10
Jeromy Anglim
2011-02-22 17:24:19 UTC
view on stackexchange narkive permalink

Utilisation des scores factoriels comme prédicteurs

Oui, vous pouvez utiliser des variables dérivées d'une analyse factorielle comme prédicteurs dans les analyses ultérieures.

D'autres options incluent l'exécution d'une forme de modèle d'équation structurelle où vous posez une variable latente avec les éléments ou les ensembles d'éléments comme variables observées.

Moyenne sous forme de score d'échelle

Oui, dans votre cas, la moyenne serait une option typique pour calculer un score d'échelle.Si vous avez des éléments inversés, vous devez vous en occuper.

Vous pouvez également utiliser les scores enregistrés par facteur à la place de prendre la moyenne. Bien que lorsque tous les éléments se chargent raisonnablement bien sur chaque facteur et que tous les éléments sont sur la même échelle et que tous les éléments sont formulés de manière positive, il y a rarement beaucoup de différence entre les scores moyens et factoriels enregistrés.

Vous pouvez également consulter méthodes qui reconnaissent la nature ordinale de l'échelle et ne traitent donc pas les options d'échelle comme étant également distantes.

(+1) Bien que vous ayez mentionné l'utilisation directe des scores Factor (et leur correspondance avec les scores bruts sous certaines conditions).
#3
+1
pbneau
2011-02-22 17:37:13 UTC
view on stackexchange narkive permalink

Tout a été dit par chl et Jeromy pour la partie théorique ... Si vous n'avez pas utilisé la somme / moyenne des variables que vous identifiez à FA vous pouvez utiliser des scores de FA.

Concernant la syntaxe que vous utilisez, vous utilisez probablement SAS. Donc pour faire une utilisation correcte de l'analyse factorielle, vous devez utiliser le score des observations et non la moyenne des variables.

Vous trouverez ci-dessous le code pour obtenir le score pour 2 facteurs avec un FA. Les scores que vous devrez utiliser seront appelés Factor1, Factor2, ... par SAS.

Il s'agit de 2 étapes ... 1) D'abord FA puis 2) appelez le score proc pour calculer les scores.

  proc factor data = Data method = ml rotate = promax outstat = FAstats n = 3 score msa résiduels heywood; var x:; run; données de score proc = Score de données = FAstats out = MyScores; var x:; exécuter; 

Les variables à utiliser sont Factor1, Factor2, ... dans les ensembles de données MyScores.

#4
+1
Andrej
2011-02-23 00:06:08 UTC
view on stackexchange narkive permalink

Les variables latentes continues avec des variables manifestes discrètes (polytomiques dans votre cas) font partie de l'analyse des réponses aux items. Le paquet «ltm» dans R couvre une variété de ces modèles. Je vous renvoie à cet article, qui traite exactement du même problème.

(+1) J'ai (re) lu votre article, qui semble assez intéressant, même si j'ai trouvé étonnant l'utilisation d'un modèle de Rasch dans des groupes de gènes. Avez-vous comparé vos résultats avec une approche PLS-DA clairsemée?
@chl Pas encore; travailler là-dessus.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 2.0 sous laquelle il est distribué.
Loading...