Question:
Quand transformer les prédicteurs en régression lorsque la réponse peut être quadratique?
David LeBauer
2011-05-14 01:21:45 UTC
view on stackexchange narkive permalink

J'analyse les données d'une expérience dans laquelle les niveaux de traitement augmentent de manière quadratique, par ex. les niveaux de traitement sont de 0 $, 1, 4, 9 $.

Lors de l'analyse de la réponse à l'aide de la régression, serait-il judicieux d'utiliser la racine carrée du niveau de traitement comme prédicteur?

Si oui, comment cela affecterait-il l'interprétation?

Deux réponses:
#1
+8
Frank Harrell
2011-05-14 02:43:50 UTC
view on stackexchange narkive permalink

Lorsque vous ne connaissez pas la forme fonctionnelle à l'avance (ce qui est un paramètre courant) et que vous n'avez aucune raison de supposer qu'elle est linéaire, il est préférable d'être flexible. S'il y avait plus de niveaux de traitement, vous pouvez ajuster une forme de spline cubique quadratique ou restreinte, par exemple. Pour seulement 4 niveaux, il peut être préférable d'attribuer 3 degrés de liberté au traitement en utilisant 3 variables fictives.

Merci pour votre réponse. Pourriez-vous expliquer ce que vous entendez par «attribuer 3 degrés de liberté au traitement en utilisant 3 variables fictives»?
est-ce la même chose que d'effectuer une ANOVA?
Oui, il s'agit de l'ANOVA s'il n'y a pas de covariables à ajuster et si l'on est prêt à supposer la normalité et l'égalité des variances de groupe. S'il y avait eu plus de niveaux, il aurait été préférable de modéliser le profil sur des niveaux en utilisant un ajustement lisse (par exemple, quadratique).
C'est un bon point. au lieu d'utiliser 6 répétitions à chacun des quatre niveaux, 3 répétitions à chacun des huit niveaux ... garderont cela à l'esprit pour l'avenir. Est-il nécessairement inapproprié d'ajuster un modèle quadratique ou non linéaire à deux paramètres en quatre points?
Non, ce n'est pas inapproprié, cela prend juste une forme quadratique. Il nécessite 3 paramètres alors que le modèle de moyenne le plus flexible avec 4 traitements nécessite le même nombre.
#2
+8
rolando2
2011-05-14 04:12:11 UTC
view on stackexchange narkive permalink

Pourquoi ne pas regarder un nuage de points X-Y bivarié avant d'exécuter une régression. Cela vous montrera la forme de la ligne ou de la courbe, en particulier si vous avez un logiciel qui peut donner un ajustement lowess / loess (ajustement lissé pondéré localement).

Quant à l'interprétation, ce sera sans aucun doute plus facile pour vous que pour votre public, mais si vous avez un ajustement quadratique, alors pour chaque incrément de un sur le carré. de X, Y changera de b, votre coefficient.

Si vous n'avez vraiment que 4 niveaux de X, je suis d'accord avec le point de @ Frank et ajouterais que vous pourriez rendre votre travail plus facile en exécutant une ANOVA à la place de régression. Ou, certains logiciels permettent de combiner facilement des prédicteurs continus et catégoriels, fusionnant la régression et l'anova dans un modèle linéaire général sans avoir besoin de variables factices (si vous utilisez SPSS, recherchez «Unianova»).

Lancer un premier regard sur la relation en dehors de l'analyse formelle obtiendra le d.f. incorrect, ce qui entraîne une couverture de l'intervalle de confiance inexacte. Un bon texte de régression décrira comment les variables fictives sont construites. Les bons logiciels le font automatiquement si vous leur donnez l'impression que le traitement est une variable catégorielle.
@Frank Harrell, d.f. est la fonction de densité? J'ai aimé la réponse d'@rolando2, et je vous ajouterais une question, @David: Avez-vous choisi les valeurs de traitement (pour des raisons théoriques, par exemple) ou d'une manière ou d'une autre, le traitement est produit par un processus indépendant de votre volonté?
@Frank - Le souci de la précision des intervalles de confiance des coefficients ne viendrait-il pas après la construction du modèle et donc après avoir déterminé si une relation X-Y particulière est linéaire?
Pas du tout. Il doit faire partie intégrante de la construction de modèles. Sinon, un simple bootstrap ou une simulation de Monte Carlo montrerait que lorsque vous déclarez une couverture d'intervalle de confiance de 0,95 (ou calculez des valeurs P), la couverture réelle est bien inférieure à cela. Un article classique sur ce sujet est @ARTICLE {gra91, author = {Grambsch, PM and {O'Brien}, PC}, year = 1991, title = {Les effets des transformations et des tests préliminaires de non-linéarité dans la régression}, journal = Stat en Med, volume = 10, pages = {697-709}} df = degrés de liberté.
@rolando Si je comprends bien l'ANOVA, il faut que les quatre traitements soient des facteurs indépendants, alors que dans ce cas les traitements sont des points le long d'une variable continue.
@David - 0, 1, 4 et 9 sont chacun un niveau de la variable de traitement unique. Dans ANOVA, vous testeriez si la moyenne est la même pour chacun de ces 4 niveaux. Votre commentaire semble s'appliquer à une situation qui ne s'applique pas ici, dans laquelle vous aviez 4 variables prédictives différentes (par exemple, le sexe, l'origine ethnique, le revenu et la région).
@rolando, Je suppose que ma question était de savoir s'il est approprié de comparer les niveaux en utilisant ANOVA au lieu de la régression
Oui, dans votre cas, je pense que cela revient au même. La régression avec des variables fictives peut être équivalente à une ANOVA. Ils sont tous deux regroupés sous ce qu'on appelle le modèle linéaire général.
@David, veuillez reformuler la question, plus je lis cela.J'ai essayé de réparer le titre, mais c'est une cible mouvante.


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...