Question:
Noter des éléments qui ne sont pas facilement comparés
M. Cypher
2013-02-22 21:50:39 UTC
view on stackexchange narkive permalink

Tout d'abord, je m'excuse car cette question a probablement été posée plusieurs fois et sa réponse est facile. Cependant, en tant qu'amateur de statistiques, je ne pouvais tout simplement pas comprendre quels mots-clés étaient pertinents pour ma question.

Supposons que vous ayez 100 marchands et 100 produits. Chaque commerçant vend une certaine gamme de produits, allant d'un seul produit aux 100 produits. En outre, les produits sont vendus dans des proportions très différentes, qui diffèrent selon les commerçants, et sont soumis aux préférences individuelles (irrationnelles) du commerçant.

Chaque fois qu'un commerçant fait un "pitch" sur le marché, nous observons si ou non il parvient à vendre le produit qu'il lance. Nous supposons que la probabilité de succès dépend (a) de la compétence du commerçant et (b) de l'attractivité du produit. Les prix des produits sont fixes, ce n'est donc pas un facteur.

Les données dont nous disposons se composent de millions d'emplacements. Pour chaque argumentaire, nous savons s'il a réussi ou non, le marchand et le produit.

Évidemment, si nous comparons les marchands par leur taux de réussite moyen, cette information est inutile car chaque marchand vend des produits différents. De même, si nous comparons les produits, nous n'obtenons aucune information puisque chaque produit est vendu par différents marchands.

Ce que nous voulons, c'est un score de compétence pour chaque marchand, qui est indépendant des produits que le marchand est vente, et un score d'attractivité pour chaque produit, qui est indépendant des marchands qui le vendent.

Je n'ai pas besoin d'une explication complète, juste quelques mots-clés pour m'indiquer le bon direction. Je n'ai littéralement aucune idée par où commencer.

Modifier: notez que notre hypothèse est que l'attractivité du produit est indépendante du marchand et que la compétence du marchand est indépendante du produit, c'est-à-dire qu'il n'y a pas de marchands qui vendent mieux certains produits mais pire pour en vendre d'autres.

Cela relève-t-il de l'apprentissage non supervisé? Nous avons un effet combiné (0/1) des compétences du marchand et du score du produit (les deux ordinal disent 1-100), et nous n'observons pas (et n'avons aucune idée) de l'ordre des 2 prédicteurs.
Vous voudrez peut-être consulter "** Analyse conjointe **"
Bienvenue à CV, @user21509. Souhaitez-vous développer votre réponse? Pourquoi l'analyse conjointe serait-elle utile ici? Notez que CV n'est pas simplement un site de questions-réponses, mais cherche à créer un référentiel permanent d'informations statistiques.
Sept réponses:
Tim
2013-03-01 03:53:35 UTC
view on stackexchange narkive permalink

Ce type de problème est généralement appelé en économétrie et en recherche marketing un problème de «modélisation des choix». Les textes traitant de tels problèmes comprennent: Louviere, J., D. A. Hensher, et al. (2000). Méthodes de choix déclarées: analyse et application. Cambridge, Cambridge University Press, Train, K. E. (2009). Méthodes de choix discrètes avec simulation. Cambridge, Cambridge University Press, Rossi, P. E., G. M. Allenby et al. (2005). Statistiques bayésiennes et marketing, Wiley.

Le modèle pratique le plus simple que vous puissiez estimer serait un modèle logit binaire avec la variable dépendante indiquant quand un objet est acheté par rapport à quand il ne l’est pas, avec deux variables indépendantes: a variable catégorielle pour le commerçant et variable catégorielle pour le produit. (Ou, si vous ne savez rien sur le moment où un produit n'est pas acheté, vous pouvez utiliser la régression de Poisson ou un autre modèle de comptage.)

L'estimation du paramètre pour chaque marchand serait son score de compétence et le paramètre pour chaque produit serait le «score d'attractivité». Le score «attractivité» est plus communément appelé «utilitaire» dans la modélisation des choix.

Un problème de calcul pratique que vous rencontrerez est qu'à moins d'avoir seulement quelques centaines de marchands et quelques centaines de variables catégorielles, vous ont du mal à estimer le modèle et peuvent avoir besoin d'un modèle à «effets aléatoires» (parfois appelé «modèle hiérarchique» dans ce contexte).

En plus de l'hypothèse que vous mentionnez, un ensemble d'hypothèses clés qui détermineront la validité de votre analyse concernera les alternatives disponibles à un moment donné. Par exemple, un produit intrinsèquement peu attrayant peut être acheté régulièrement car les produits les plus attractifs ne sont pas disponibles au moment de l'achat. Cet effet peut avoir un impact très important sur les estimations qui en résultent, car s'il est ignoré, vous confondez par inadvertance l'attrait d'un produit avec sa disponibilité. Les textes cités précédemment traitent de diverses modifications des modèles de choix pour faire face à de nombreux types d'hypothèses susceptibles d'être pertinentes pour votre problème.

Si vous essayez de faire un logit de réponse binaire dans ce cas, n'obtiendrez-vous pas un grand nombre de doublons? Serait-ce un problème?
La question demande "Pour chaque argumentaire, nous savons s'il a réussi ou non, le commerçant et le produit." Si le destinataire de la présentation refuse et quitte le marché, je ne pense pas qu'il y ait de problème. Si nous pensons que plusieurs produits ont été comparés, nous avons besoin d'un modèle logit multinomial. Si nous pensons que la personne n'achète pas parce qu'elle pense qu'il pourrait y avoir quelque chose de mieux, alors nous avons un problème beaucoup plus difficile.
curious_cat
2013-03-01 00:12:05 UTC
view on stackexchange narkive permalink

Pourquoi ne pas calculer pour chaque marchand un taux de réussite pour chaque produit qu'il vend $ S_ {ij} $. ($ i $ indexe les produits et $ j $ indexe les marchands) Faites la moyenne de cette valeur et calculez le taux de réussite de base moyen d'un marchand ($ S_j $). Calculez maintenant les différences ($ \ delta S_ {ij} = S_ {ij} - S_j $). Chacun de ces $ \ delta S_ {ij} $ indique à quel point chaque produit est meilleur ou pire par rapport au taux de réussite de base de ce marchand.

Si vous additionnez ce $ \ delta S_ {ij} $ sur tous les marchands j obtiendriez-vous une sorte de score de l'attractivité de chaque produit $ S_i $?

La métrique de compétence du marchand serait un double de cela. Un problème est que cela ne pèse pas dans le niveau de confiance motivé par de grandes données. c'est-à-dire que 2 succès sur 4 lancers devraient (peut-être) avoir moins de 1000 succès sur 2000 lancers? Vous devrez trouver un moyen de vous adapter au cas où cela importerait.

Alternativement: Supposons que chaque marchand a une valeur de compétence $ M_j $ et que chaque produit a un attrait produit $ A_i $. Vous pouvez modéliser le taux de réussite du produit $ i $ vendu par le marchand $ j $ ($ S_ {ij} $) comme une fonction de $ M_j $ et $ A_i $ avec des termes croisés possibles. Si vous correspondez à cela, vous pourrez peut-être marquer en utilisant les coefficients.

Si vous considérez $ S_ {ij} = M_j \ times A_i + \ epsilon_ {ij} $, vous obtenez un modèle simple. La matrice des éléments de succès est peut-être rare (puisque tous les commerçants ne vendent pas tous les produits). S'il était effectivement entièrement rempli, vous devez estimer 200 coefficients à partir de nombres de taux de réussite de 100x100 de manière à minimiser $ \ epsilon_ {ij} $ dans une sorte de moindres carrés.

Failles possibles:

Je ne vois pas de moyen facile d'interpréter les scores relatifs. par exemple. Si deux produits ont une attractivité de $ A_ {i1} $ et $ A_ {i2} $, combien est-il meilleur que l'autre? Un simple ratio? Une probabilité log? etc. Il y a peut-être une interprétation mais je ne peux pas encore la voir. D'un point de vue strictement d'ordre, cela ne devrait pas avoir d'importance.

PS À quel point votre matrice est-elle clairsemée? Sachant que vous avez des millions d'emplacements peut-être pas trop rares? Ou est-ce? c'est-à-dire que sur un maximum de 10 000 combinaisons marchand-produit, combien sont remplies (c'est-à-dire qu'elles ont au moins un emplacement)?

PS1 Unicité. Je ne peux pas prouvez si vos valeurs $ M_j $ et $ A_i $ seront uniques ou même proches de. S'il y a plusieurs solutions, ce sera une situation intéressante. Peut-être y a-t-il de meilleurs résultats mathématiques à ce sujet?

+1 Votre section "Alternativement" est _exactement_ la même que la "SVD" utilisée dans netflix, avec le nombre de dimensions réduit à 1.
@StumpyJoePete Je ne savais pas ça! Merci. Cela semblait un peu trop simpliste quand je l'ai suggéré moi-même .....
Ouais, voir [ma réponse à propos de svd] (http://stats.stackexchange.com/a/35460/13669). Alors pensez-y simplement comme appliqué à votre matrice, avec $ k = 1 $. Le résultat final est d'approximativement $ S $ en tant que produit externe d'un vecteur "produit" et d'un vecteur "marchand", en essayant de minimiser l'erreur quadratique dans les entrées connues. À votre santé!
Innuo
2013-03-01 03:01:07 UTC
view on stackexchange narkive permalink

Votre problème peut être modélisé par un modèle Rasch. Voici un document qui explique le modèle avec l'exemple suivant

Le modèle de Rasch est un modèle statistique d'un test qui tente de décrire la probabilité qu'un élève réponde à une question correctement. Il attribue à chaque élève un nombre réel, a, appelé «capacité», et à chaque question un nombre réel, d, appelé «difficulté».

Ceci est similaire à votre situation où chaque marchand a une "compétence" inhérente et chaque produit a une "attractivité" inhérente.

Jacques Wainer
2013-03-01 03:42:52 UTC
view on stackexchange narkive permalink

Permettez-moi de développer la solution alternative proposée par @curious_cat.

$ P_ {ij} $ est la matrice des pas

$ L_ {ij} $ est la matrice des ventes

$ S_ {ij} = L_ {ij} / P_ {ij} $ est la matrice des taux de réussite (division élémentaire là où elle existe et 0 ailleurs)

Comme @curious_cat l'a suggéré, vous voulez approximer $ S_ {ij} $ par produit de deux vecteurs positifs

$$ S_ {ij} \ approx M_i \ times A_j ^ T $$

La minimisation des moindres carrés conduira à

$$ \ min | S_ {ij} - M_j \ times A_i ^ T | _2 $$ où $ | \ quad | _2 $ est la norme de Frobenius.

MAIS vous ne voulez pas minimiser pour les entrées dans lesquelles $ S_ {ij} $ n'est pas défini. Donc, ce que vous voulez vraiment, c'est quelque chose comme:

$$ \ min | W_ {ij} \ odot (S_ {ij} - M_j \ times A_i ^ T) | _2 $$ où $ \ odot $ est la multiplication élémentaire.

1) En première approximation, $ w_ {ij} $ est 0 où $ p_ {ij} $ vaut 0 et 1 ailleurs.

C'est un non pondéré -Problème de factorisation matricielle négative (ou d'approximation). Google devrait lui donner quelques références.

2) Maintenant, tirant de la hanche, essayons de répondre au point également fait par @curious_cat que vous devriez faire plus confiance à un taux de réussite de 1000 ventes sur 2000 emplacements d'un 2 se vend sur 4 emplacements.

Le poids $ w_ {ij} $ n'a pas besoin d'être uniformément 1 pour les entrées définies dans $ S_ {ij} $. On peut lui donner plus de poids aux taux de réussite avec des emplacements plus élevés.

Ma supposition est d'utiliser $ \ sqrt {p_ {ij}} $ comme poids. L'intuition est que l'intervalle de confiance sur le taux de réussite est inversement proportionnel à $ \ sqrt {p_ {ij}} $.

rolando2
2013-02-23 12:23:12 UTC
view on stackexchange narkive permalink

Je pense que vous cherchez à attribuer des qualités qui ne sont pas inhérentes ou qui ne découlent pas de vos données. Vous disposez de données claires sur le taux de réussite, et il devrait y avoir un moyen de calculer ou d'estimer le «taux de réussite ajusté» d'un commerçant étant donné le taux auquel ses produits ont tendance à se vendre parmi tous les commerçants. De même, il devrait y avoir un moyen de déterminer le taux de réussite ajusté de chaque produit compte tenu des taux de succès des commerçants qui ont tendance à le vendre. Ces deux angles d'analyse peuvent être réalisés avec une régression logistique imbriquée / hiérarchique / multi-niveaux, si les données s'y prêtent. Mais cela ne révélerait pas nécessairement les attributs de «compétence» ou d '«attractivité»; cela pourrait leur donner des procurations viables, mais l'adéquation de ces procurations est une question de fond plus qu'une question statistique.

Bien sûr, je ne suis pas tellement préoccupé par le nom approprié de ces attributs. Mon objectif est, par exemple, de trouver une liste de scores de produits qui, si un nouveau commerçant commençait à les utiliser pour décider des produits à promouvoir, minimiserait l'erreur attendue. Le score ne doit refléter aucune qualité réelle observable, juste quelque chose qui permet de faire la distinction entre les produits gagnants et perdants.
steadyfish
2013-03-01 01:50:14 UTC
view on stackexchange narkive permalink

Je créerais simplement une table à 2 voies pour cela. Par exemple lignes correspondant à différents marchands et colonnes correspondant à différents produits. Chaque cellule de ce tableau / matrice 100 x 100 représente le nombre / la proportion pour non. des fois, la combinaison a réussi.

Une fois que cela est fait, vous pouvez trier cette matrice par lignes, puis par colonnes (ou inversement) pour obtenir la commande des produits et des compétences du marchand.

Christopher D. Long
2013-03-04 18:16:41 UTC
view on stackexchange narkive permalink

Je recommanderais une régression logistique avec les marchands et les produits comme effets aléatoires. En R, cela ressemblerait à:

  library ("lme4") fit <- glmer (vendu ~ (1 | marchand) + (1 | produit), data, family = binomial, REML = TRUE, verbose = TRUE, poids) summary (fit) ranef (fit)  

L'extraction des estimations est relativement simple, et je gère des millions de points de données avec des approches similaires sur les postes de travail standard tout le temps. L'ajustement du modèle ne prend généralement que quelques minutes.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...