Question:
base théorique de la régression logistique
B. Lari
2017-12-28 22:25:56 UTC
view on stackexchange narkive permalink

Désolé si cela est évident, mais pourquoi semble-t-il que certains articles / études (généralement dans une discipline économique) utilisent la théorie de l'utilité comme base pour des modèles de choix discrets alors que d'autres (souvent en sciences sociales) ne le font pas?Si ce qui est modélisé est un choix binaire, une spécification des raisons pour lesquelles ce choix est fait (comme dans, pour maximiser l'utilité) et un modèle d'utilité qui l'accompagne sont-ils nécessaires?Il semble que certains l'utilisent et d'autres non, même lorsque ce qui est modélisé est essentiellement la même chose.Merci

Je pense que la théorie derrière cela est la distribution Boltzmann et vous pouvez vous référer à cette réponse: https://stats.stackexchange.com/a/461851/103153
Cinq réponses:
Kodiologist
2017-12-28 22:37:26 UTC
view on stackexchange narkive permalink

Non, ce n'est pas nécessaire.Les économistes aiment approfondir les hypothèses mathématiques sur la façon dont les gens prennent des décisions, d'où leur invocation fréquente de la théorie de l'utilité.Mais la régression logistique peut être justifiée en termes statistiques sans référence à l'utilité, en utilisant l'idée qu'un changement d'unité dans un prédicteur est lié à un changement additif dans le log des chances d'une réponse.

@B.Lari De rien.Si j'ai répondu à votre question de manière satisfaisante, vous pouvez accepter ma réponse en cliquant sur la coche sous les flèches de vote.
Benoit Sanchez
2017-12-28 23:20:53 UTC
view on stackexchange narkive permalink

Il n'y a pas de base théorique pour la régression logistique (en général comme choix par rapport à un autre modèle). Deux choses sont arbitraires:

  • additionner les influences de chaque variable, chaque influence étant proportionnelle à la variable (prédicteur linéaire)
  • le lien sigmoïde (logit)

La deuxième hypothèse ne peut pas non plus être justifiée. Elle est similaire à l'hypothèse de normalité du bruit en régression linéaire. Il est intéressant de noter que de nombreuses autres fonctions de lien produisent des résultats très similaires: Différence entre les modèles logit et probit.

Il est cependant intéressant de noter que la régression logistique est équivalente à l'entropie maximale (dans le cas de résultats binaires / multinomiaux et d'observations indépendantes), et que l'entropie maximale a été indiquée comme un principe de Jaynes dans les années 50. Je pense que les gens ont réalisé que les deux étaient équivalents beaucoup plus tard (début des années 2000 pour autant que je sache).

Sigmoid / softmax est la façon dont vous convertissez les probabilités logarithmiques en probabilités.Les probabilités logarithmiques sont pratiques car le théorème de Bayes simplifie l'addition.La somme des influences de chaque variable revient à supposer leur indépendance, ce qui est une hypothèse plus faible que le bruit normalement distribué.La régression logistique de l'OMI a donc une base théorique assez rigoureuse.
"La deuxième hypothèse ne peut pas non plus être justifiée. Elle est similaire à l'hypothèse de normalité du bruit en régression linéaire." L'hypothèse de normalité dans LR n'est pas complètement arbitraire et peut souvent être justifiée si l'on considère le bruit additif comme le résultat d'un grand nombre de petites sources d'erreur indépendantes.Par le CLT, leur effet combiné se rapproche d'une distribution normale.
Aksakal
2017-12-29 01:59:39 UTC
view on stackexchange narkive permalink

On a l'impression que les économistes le font parce que c'est ce qu'ils sont obligés d'écrire pour être publiés dans microeconomics.Les études empiriques pures sont difficiles à publier.

Cependant, cela est en train de changer et tous les économistes ne le font pas.Par exemple, jetez un œil à ce travail: "Analyse du risque de défaut hypothécaire".Ils utilisent le logit multinomial et aucune fonction utilitaire n'est mentionnée nulle part dans l'article.Et ce n'est même pas macroeconomics, où ils ne se sentent pas obligés de pousser la fonction utilitaire dans chaque papier

IMA
2017-12-29 03:58:53 UTC
view on stackexchange narkive permalink

D'autres personnes ont répondu à votre question, laissez-moi vous expliquer un peu plus la philosophie derrière les différentes justfications pour les modèles logit.

Le modèle d'utilité utilisé en économie est basé sur l'idée générale de lier les ordres de préférence généraux sur les résultats à l'ordre des nombres réels. De manière moins abstraite, ce que les économistes ont essayé de faire est de montrer quand toute préférence sur certains résultats possibles peut être représentée par des fonctions qui donnent un "choix maximum", et quand ce n'est pas possible.

Cela correspond très naturellement à la régression logistique lorsqu'il n'y a que deux choix, 0 et 1, et aussi très bien aux modèles multinomiaux où il y a plus de choix. Compte tenu des hypothèses distributionnelles, la régression logistique «découle» donc naturellement d'un modèle microfondé et très général du comportement humain. C'est bien pour les économistes, car de nombreux résultats qu'ils recherchent nécessitent abstraitement l'existence de telles préférences pour avoir un sens plus que simplement heuristiquement. Il en va de même pour les autres sciences sociales qui reposent sur le choix, mais leur objectif est souvent différent.

On peut poser un modèle de choix discret soit comme modèle d'utilité, soit comme modèle à variable latente. Le modèle de variable latente (où $ y = 1 $ si quelque $ y * >t $) est aussi fondamentalement un modèle de choix, mais il ne spécifie pas pourquoi cette règle de décision se produit.

Parfois, nous ne sommes pas intéressés à modéliser ce pourquoi. Par exemple, nous pouvons tout simplement ne pas s'en soucier, car un mécanisme par ailleurs stable mais compliqué est derrière cela. Il se peut également qu'aucune entité réelle ne prenne une décision, c'est en un sens une affaire purement statistique. Il serait alors plutôt inventé de penser à des ordres de préférence hypothétiques par une non-entité.

Donc pour répondre à votre question: le modèle d'utilité n'est pas du tout nécessaire.Cela dépend de votre question de recherche.Une entité prend-elle une décision?Si oui, essayez-vous d'apprendre quelque chose sur cette prise de décision?Si oui, alors toutes les approches mèneront tôt ou tard à un modèle d'utilité, simplement parce que vous devez trouver des «préférences» stables ou logiques dans votre recherche.

Dans d'autres applications, l'utilité n'est pas du tout nécessaire (surtout en dehors des sciences sociales, cela peut être le cas, disons un modèle mécanique) et il serait inutile et même nuisible d'argumenter avec le modèle d'utilité.

3pitt
2017-12-29 03:44:24 UTC
view on stackexchange narkive permalink

Je ne suis pas économiste et je ne connais pas grand-chose à la théorie de l'utilité, mais je pense en fait qu'il existe une justification théorique à la régression logistique - du moins à un niveau élevé.Dans la vraie vie, les décisions ne sont-elles pas plus proches d'exister sur une échelle comme 0-100% plutôt que 0/1 binaire?La capacité à extraire des «probabilités» d'un modèle logistique le rend plus attrayant que certaines autres méthodes de classification.Bien entendu, le fait que la séparabilité linéaire empêche la régression logistique pose un problème pour certaines classes de justification théorique.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...