Question:
La valeur p pour le modèle de régression forestière aléatoire
Xiaoyu Lu
2017-06-07 00:11:52 UTC
view on stackexchange narkive permalink

Un critique m'a donc demandé de fournir la "valeur P" pour mon modèle de régression forestière aléatoire.

J'ai essayé de faire des recherches à ce sujet, et je n'ai trouvé que des méthodes pour produire des valeurs p pour chaque condition de division (comme dans le package 'party'), et des valeurs p pour une importance variable (comme dans le package 'rfPermute').J'ai du mal à faire confiance aux valeurs p pour l'importance des variables car certaines variables très importantes ont des valeurs p> 0,9.

Toute entrée sur la façon de générer la "valeur p" générale pour une forêt aléatoire (s'il y en a une) serait appréciée.

valeur p de quoi?
J'ai donc signalé le "% Var expliqué" et le critique m'a demandé de fournir la valeur p.
Je vais répéter, _ "valeur p de quoi" _?
Vous pouvez toujours en faire un bootstrap, mais pourquoi le critique le voudrait-il?C'est peut-être le résultat le moins pertinent du RF.
@Repmat En effet, la forêt aléatoire amorce déjà un tas d'arbres de décision.Il est probable que l'examinateur de OP ne soit pas familier avec les forêts aléatoires et comment les interpréter.Il n'y a rien de fréquentiste en soi.
@markwhite, Je suis entièrement d'accord.Mon expérience a toujours été que vous ne devriez pas discuter avec les critiques, et encore moins essayer de les éduquer sur les statistiques car ils vont a) vous ignorer, b) rejeter l'article.Par conséquent, il est beaucoup plus facile de simplement bootstrap sur les données brutes, et d'ignorer complètement la distribution hypothétique sur laquelle nous en déduisons ou si le psudo R-carré d'un RF peut être considéré comme provenant d'une telle distribution.Mais je m'éloigne du sujet.
La digression est appréciée;à mon avis, le processus d'examen par les pairs est l'un des plus grands obstacles à l'avancement des méthodologies statistiques;de nombreux chercheurs appliqués ne poursuivent pas leur formation en statistique après avoir terminé leurs études supérieures.
@MarkWhite: (commentaire sournois obligatoire) certains chercheurs appliqués semblent arrêter leur formation statistique après leurs années de premier cycle et passer le reste de leur vie universitaire à oublier activement ce qu'ils ont appris.[Tout cela en proclamant haut et fort qu'ils n'ont pas besoin de statisticiens puants pour leurs applications ou leurs études.] (Https://www.youtube.com/watch?v=Hz1fyhVOjr4&feature=related)
La question est basée sur une confusion, mais cela peut être traité dans une réponse.De plus, l'existence d'une réponse positive implique que ce n'est pas trop flou pour obtenir une réponse.Je vote pour laisser ouvert.
Un répondre:
Stephan Kolassa
2017-06-07 00:48:09 UTC
view on stackexchange narkive permalink

En cas de doute, simulez ou permutez.

Dans ce cas précis:

  1. Permutez aléatoirement votre variable dépendante.
  2. Ajuster une forêt aléatoire.
  3. Notez le pourcentage de variance expliqué.

Effectuez les étapes 1 à 3 plusieurs fois, par exemple 1 000 à 10 000 fois. Vous avez maintenant une distribution empirique de% de variance expliquée à travers une forêt aléatoire, sous l'hypothèse nulle d'absence de relation entre votre variable indépendante et dépendante.

Insérez le% de variance réel expliqué dans votre modèle d'origine dans cette distribution et notez quelle proportion des valeurs expliquées de variance «nul» basées sur la permutation dépasse cette valeur réelle. Cette proportion est votre valeur p.

Si vous faisiez la même chose dans un modèle de régression linéaire standard, vous obtiendriez (asymptotiquement) la valeur p pour le test F classique pour la variance expliquée.

Comme d'autres l'écrivent, votre critique ne semble pas trop avisé sur le plan statistique, mais l'approche que je décris ci-dessus a du sens et devrait le satisfaire. C'est mieux que de se lancer dans une discussion anonyme sur la compétence statistique d'un examinateur, de toute façon.

Quelles seraient les étapes de l'approche de simulation?
@Digio: J'irais avec l'approche de permutation dans ce cas.
Stephan - J'ai encore 1 question sur cette méthode.Comment estimeriez-vous le pourcentage de variance expliqué par prédicteur à partir du score d'importance RF?
Je ne calculerais pas le% de variance expliqué * à partir du score d'importance RF *.J'évaluerais le% de variance expliqué à partir de l'analyse de permutation (en notant la variance résiduelle du modèle complet et la variance expliquée dans un modèle avec un prédicteur permuté), puis définirais cela comme l'importance de la variable.Vous pouvez également utiliser tout autre KPI raisonnable, comme la réduction des impuretés de Gini.
Je vois, merci.En passant, par "score d'importance RF", je voulais dire impureté de Gini ou gain d'information.
Je dirais qu'il serait nécessaire d'effectuer une permutation également sur les caractéristiques elles-mêmes afin de rompre la relation entre les caractéristiques et la cible (ou variable dépendante).De cette façon, l'hypothèse nulle (que le% de variance expliqué par rf est également explicable par l'ajustement de variables non corrélées) serait correctement établie.Je suis très intéressé à en discuter.
@JacoSolari: Je comprends votre point de vue, mais je ne suis pas d'accord.Oui, le "comportement nul" du RF sous les caractéristiques * non corrélées * peut être intéressant, mais typiquement nous serions plus intéressés par le "comportement nul" du RF sous * les caractéristiques telles qu'elles sont *.Ce qui peut être meilleur ou pire que sous des caractéristiques non corrélées.Je ne permuterais donc pas les fonctionnalités, mais seulement la réponse.
@StephanKolassa Point intéressant et je vois ce que vous voulez dire.Mais ensuite je me demandais: en permutant uniquement la réponse, n'introduisons-nous pas un biais dû au fait que la répétition de la procédure dit que 10k fois il y a des chances que beaucoup de ces permutations soient dans un ordre "assez bon" et produisent commeune conséquence un pourcentage élevé de variance expliquée? Peut-être qu'une autre approche pourrait être de laisser les caractéristiques «telles qu'elles sont» et de les tester avec RF contre de nombreux échantillons indépendants de nombres aléatoires uniformément distribués avec la même taille et la même plage que la réponse.Ne serait-ce pas moins biaisé?
Eh bien, je ne pense pas qu'il y ait autant de permutations "assez bonnes".Le nombre de permutations est * énorme * (il est en fait difficile de se faire une idée du nombre).Et l'utilisation d'une réponse aléatoire uniformément distribuée pose le problème que la distribution de la réponse réelle peut être loin d'être uniforme, même si nous faisons correspondre les plages.
Il est vrai que le nombre de permutations peut être très très grand, mais il dépend toujours de la taille de l'échantillon.C'est pourquoi il me semble que "rééchantillonner" la réponse à chaque itération à partir d'une distribution (uniforme ou mieux similaire à celle de la réponse) pourrait être plus général.Mais c'est juste un sentiment, j'aurais besoin d'exécuter des simulations dans des cas d'utilisation contrôlés pour me convaincre de ce qui pourrait être la meilleure approche générale.
C'est un sujet ouvert intéressant, je pense, cet article a par exemple conçu un "indice d'importance statistiquement interprétable" pour RF en utilisant la permutation de fonctionnalités sur des échantillons OOB. Https://www.info.ucl.ac.be/~pdupont/pdupont/pdf / benelearn_14.pdf


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...