Question:
La valeur estimée dans une régression OLS est-elle "meilleure" que la valeur d'origine
Kare
2014-01-11 02:20:34 UTC
view on stackexchange narkive permalink

En utilisant une simple régression des moindres carrés ordinaires:

$ Y = \ alpha + \ beta \ times X $

nous pouvons estimer la variable dépendante $ Y $ via les paramètres de régression de $ \ alpha \ text {et} \ beta $.

En quoi le $ Y $ estimé est-il "meilleur" que le $ Y $ original?

** Mieux vaut pour qui ou quoi? ** Mesurer le coefficient de la loi de la gravité dans un laboratoire? Signaler les bénéfices de votre entreprise au bureau des impôts? Correction d'une erreur d'instrument?
Six réponses:
Glen_b
2014-01-11 04:41:23 UTC
view on stackexchange narkive permalink

Normalement, vous n'appelleriez pas la valeur observée une "valeur estimée".

Cependant, malgré cela, la valeur observée est néanmoins techniquement une estimation de la moyenne à son $ x $ particulier, et la traiter comme une estimation nous dira en fait le sens dans lequel OLS est meilleur pour estimer la moyenne là-bas.

De manière générale, la régression est utilisée dans le cas où si vous preniez un autre échantillon avec les mêmes $ x $, vous n'obtiendriez pas les mêmes valeurs pour les $ y $. Dans la régression ordinaire, nous traitons les $ x_i $ comme des quantités fixes / connues et les réponses, les $ Y_i $ comme des variables aléatoires (avec des valeurs observées notées $ y_i $).

En utilisant une notation plus courante, nous écrivons

$$ Y_i = \ alpha + \ beta x_i + \ varepsilon_i $$

Le terme de bruit, $ \ varepsilon_i $, est important car les observations ne sont pas correctes sur la ligne de population (s'ils le faisaient, il n'y aurait pas besoin de régression; deux points quelconques vous donneraient la ligne de population); le modèle pour $ Y $ doit tenir compte des valeurs qu'il prend, et dans ce cas, la distribution de l'erreur aléatoire tient compte des écarts par rapport à la ligne ('vraie').

L'estimation de la moyenne au point $ x_i $ pour la régression linéaire ordinaire a une variance

$$ \ Big (\ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum (x_i- \ bar {x}) ^ 2} \ Big) \, \ sigma ^ 2 $$

tandis que l'estimation basée sur la valeur observée a une variance $ \ sigma ^ 2 $.

Il est possible de montrer que pour $ n $ au moins 3, $ \, \ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum (x_i- \ bar {x}) ^ 2} $ n'est pas supérieur à 1 (mais il peut être - et en pratique est généralement - beaucoup plus petit). [De plus, lorsque vous estimez l'ajustement à $ x_i $ par $ y_i $, il vous reste également la question de savoir comment estimer $ \ sigma $.]

Mais plutôt que de poursuivre la démonstration formelle, réfléchissez un exemple qui, je l’espère, sera plus motivant.

Soit $ v_f = \ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum ( x_i- \ bar {x}) ^ 2} $, le facteur par lequel la variance d'observation est multipliée pour obtenir la variance de l'ajustement à $ x_i $.

Cependant, travaillons sur l'échelle de l'erreur standard relative plutôt que sur la variance relative (c'est-à-dire, regardons la racine carrée de cette quantité); les intervalles de confiance pour la moyenne à un $ x_i $ particulier seront un multiple de $ \ sqrt {v_f} $.

Donc à l'exemple. Prenons les données cars dans R; ce sont 50 observations collectées dans les années 1920 sur la vitesse des voitures et les distances parcourues pour s'arrêter:

enter image description here

Alors, comment font les valeurs de $ \ sqrt {v_f} $ comparer avec 1? Comme ceci:

enter image description here

Les cercles bleus montrent les multiples de $ \ sigma $ pour votre estimation, tandis que les noirs le montrent pour l'estimation habituelle des moindres carrés. Comme vous le voyez, l'utilisation des informations de toutes les données rend notre incertitude quant à l'emplacement de la moyenne de la population considérablement plus petite - du moins dans ce cas, et bien sûr étant donné que le modèle linéaire est correct.

En conséquence , si nous traçons (disons) un intervalle de confiance à 95% pour la moyenne de chaque valeur $ x $ (y compris à des endroits autres qu'une observation), les limites de l'intervalle aux divers $ x $ sont généralement petites par rapport aux variation dans les données:

enter image description here

C'est l'avantage d'emprunter des informations à partir de valeurs de données autres que la valeur actuelle.

En effet, nous pouvons utiliser les informations d'autres valeurs - via la relation linéaire - pour obtenir de bonnes estimations de la valeur à des endroits où nous n'avons même pas de données. Considérez qu'il n'y a pas de données dans notre exemple à x = 5, 6 ou 21. Avec l'estimateur suggéré, nous n'avons aucune information - mais avec la droite de régression, nous pouvons non seulement estimer la moyenne à ces points (et à 5,5 et 12,8 et ainsi de suite), nous pouvons lui donner un intervalle - bien que, encore une fois, celui qui repose sur l'adéquation des hypothèses de linéarité (et de variance constante des $ Y $ s, et de l'indépendance).

+1. (Mais je suis incapable de démontrer $ \ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum (x_i- \ bar {x}) ^ 2} \ lt 1 $ sauf si je suppose que $ n \ ge 3 $ et que tous les $ x_i $ ne sont pas identiques; même dans ce cas, je ne peux que montrer que la relation est $ \ le $, pas $ \ lt $. :-) Pourquoi écrivez-vous celle-là impossible d'estimer $ \ sigma $ à partir des données? Je pensais que cela se faisait régulièrement en prenant la racine du résidu quadratique moyen. Je ne dois pas comprendre correctement votre réclamation.
@whuber J'ai apporté quelques modifications. Si vous avez d'autres commentaires, ce serait très bienvenu.
Merci! (Vous n'avez vraiment pas besoin de travailler si dur. :-)
Bill
2014-01-11 03:16:54 UTC
view on stackexchange narkive permalink

Premièrement, l'équation de régression est:

\ begin {equation} Y_i = \ alpha + \ beta X_i + \ epsilon_i \ end {equation}

Il y a un terme d'erreur , $ \ epsilon $. En fait, ce terme d'erreur est essentiel pour répondre à votre question. Quel est exactement le terme d'erreur dans votre application? Une interprétation courante de celui-ci est "l'influence de tout, à part $ X $, qui affecte $ Y $." Si telle est votre interprétation de votre terme d'erreur, alors $ Y_i $ est la meilleure mesure de ce qu'est réellement $ Y_i $.

D'un autre côté, dans de rares cas, nous interprétons le terme d'erreur comme étant exclusivement erreur de mesure --- l'erreur induite par l'erreur de l'opérateur lors de l'utilisation d'un instrument scientifique ou l'erreur provenant de la précision naturellement limitée d'un instrument. Dans ce cas, la valeur "réelle" de $ Y_i $ est $ \ alpha + \ beta X_i $. Dans ce cas, vous devez utiliser la prédiction OLS de $ Y_i $ au lieu de la valeur réelle de $ Y_i $ if $ V (\ epsilon_i) >V (\ hat {\ alpha} _ {OLS} + \ hat {\ beta} _ {OLS} X_i) $ --- c'est-à-dire si la variance de l'erreur qui provient du remplacement de $ \ alpha $ et $ \ beta $ par leurs estimateurs OLS est inférieure à la variance de l'erreur de mesure.

Autre exemple: si la vraie relation entre Y et X est non linéaire, alors alpha et bêta, et donc Yest, ne sont qu'une linéarisation locale d'une fonction non linéaire. Le terme d'erreur détectera les effets qui ne peuvent pas être capturés par un ajustement linéaire. Dans un tel cas, Yest peut très bien être un estimateur biaisé de Y [i], c'est-à-dire que l'erreur attendue si l'on fait une nouvelle observation ne doit pas être nulle.
Peter Flom
2014-01-11 02:37:31 UTC
view on stackexchange narkive permalink

La valeur d'origine n'est pas une estimation (sauf pour le fait qu'elle peut avoir une erreur de mesure): c'est la valeur de Y pour un sujet spécifique (par exemple, une personne ou autre). La valeur prédite de l'équation est une estimation: c'est une estimation de la valeur attendue de Y à une valeur donnée de X.

Rendons cela concret:

Disons que Y est poids et X est la taille. Disons que vous mesurez et pesez un groupe de personnes. Disons que Jill pèse 5'0 et 105 livres. C'est sa taille et son poids. L'équation vous donnera une valeur de poids prédite différente pour une personne qui mesure 5'0 ". Ce n'est pas la valeur prévue pour Jill - vous n'avez pas besoin de prédire ou d'estimer son poids, vous le savez avec la précision de Il s'agit de la valeur prédite d'une «personne typique de 5'0».

Alors pouvons-nous supposer que la régression est une sorte de regroupement où les classes sont trouvées par la droite de régression?
Non, aucune classe n'a besoin d'être formée. Il s'agit d'un ajustement d'une ligne des moindres carrés.
Scortchi - Reinstate Monica
2014-01-11 02:28:55 UTC
view on stackexchange narkive permalink

L'équation doit être $$ \ operatorname {E} (Y) = \ alpha + \ beta x $$; c'est la valeur attendue de $ Y $ à la valeur donnée de $ x $. Donc, si & de votre modèle est correct, vous faites suffisamment d'observations de $ Y $ à cette valeur de $ x $, cela vous indique quelle sera la valeur moyenne de $ Y $. À long terme, vous ferez mieux de faire des prédictions en utilisant cette moyenne que la valeur que vous avez observée.

Thx pour votre réponse! Pouvez-vous expliquer pourquoi je ferais mieux de faire des prédictions?
Alex Williams
2014-01-11 02:35:37 UTC
view on stackexchange narkive permalink

En général, OLS n'est généralement pas motivé en comparant la réponse estimée, $ \ hat {Y_i} $, à la réponse observée $ Y_i $. Au lieu de cela, s'il est donné un nouvel ensemble de valeurs pour la valeur du prédicteur $ X_ {new} $, le modèle OLS prédit ce que serait la variable dépendante $ \ hat {Y} _ {new} $ dans un cas typique.

Le fait est que $ \ hat {Y} _i $ n'est généralement pas considéré comme "meilleur" que $ Y_i $, mais plutôt un reflet plus précis de ce que vous attendez de $ Y $ à une valeur particulière pour $ X $ .

Cependant, il y a des situations où vous pouvez penser que $ \ hat {Y} _i $ reflète plus fidèlement la vérité que $ Y_i $ (peut-être pour une valeur aberrante résultant d'un dysfonctionnement de votre collecte de données). Cela dépendrait fortement des détails de vos données.

Martin F
2014-01-11 06:57:03 UTC
view on stackexchange narkive permalink

Cela vous aide-t-il? (C'est ce qui m'est venu à l'esprit en lisant la question.)

En statistique, le théorème de Gauss-Markov, nommé d'après Carl Friedrich Gauss et Andrey Markov, déclare que dans un modèle de régression linéaire dans lequel les erreurs ont une espérance nulle et sont non corrélées et ont des variances égales, le meilleur estimateur linéaire sans biais (BLEU) des coefficients est donné par l'estimateur des moindres carrés ordinaires (MCO). Ici, «meilleur» signifie donner la variance la plus faible de l'estimation, par rapport à d'autres estimations linéaires non biaisées. Les erreurs n'ont pas besoin d'être normales, ni indépendantes et distribuées de manière identique (seulement non corrélées et homoscédastiques). L'hypothèse selon laquelle l'estimateur est sans biais ne peut être abandonnée, car autrement il existe des estimateurs meilleurs que les MCO.

http://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...