Question:
Quel est le meilleur outil de segmentation client?
jschwa
2011-08-26 02:15:58 UTC
view on stackexchange narkive permalink

J'ai un ensemble de données client avec les données suivantes:

  • Le nombre d'achats que chaque client a effectué
  • La date à laquelle il a effectué chaque achat
  • La date à laquelle ils se sont inscrits
  • Le montant qu'ils ont dépensé pour chaque achat

Je souhaite segmenter mes utilisateurs en trois groupes:

  • Grands clients
  • Bon clients
  • Mauvais clients

Existe-t-il un outil que je peux utiliser (méthode statistique OU logiciel examinera toutes les variables et créera les segmentations? J'ai Stata et Excel, mais votre réponse ne doit pas se limiter à ceux-ci.

Pour segmenter les clients, pas leurs données, une guillotine
Six réponses:
#1
+8
rolando2
2011-08-26 02:42:37 UTC
view on stackexchange narkive permalink

Je crains que vous ne confondiez les logiciels et les algorithmes statistiques pour penser, juger les êtres. Aucun outil ne peut vous donner le bien, le mal et le truand. Vous devrez exercer votre propre jugement en cours de route! Ce dont vous avez besoin, ce n'est pas tant un outil mais des critères bien pensés pour classer chaque client. Ensuite, le reste est une question de mécanique ou de suivi.

#2
+8
Brandon Bertelsen
2011-08-26 04:53:05 UTC
view on stackexchange narkive permalink

L'analyse de survie de la LTV (valeur à vie) est un bon point de départ. C'est assez basique, mais cela fait le travail. Mais il y a beaucoup de travail d'intelligence d'affaires que vous pourriez faire avec ce que vous avez. Si vous avez des taux de réponse aux publicités et autres, cela pourrait également vous fournir un bon moyen d'évaluer l'efficacité.

Je suis d'accord avec rolando2, le bon, le mauvais et le laid - étant défini mathématiquement, est un défi. Surtout en l'absence d'élément comportemental ou secondaire dans vos données autre que les achats, même quelque chose d'aussi simple qu'un code postal pourrait ajouter des informations fantastiques à vos données pour comprendre des choses comme le lieu d'achat (c'est un magasin). Je suppose que vous pouvez segmenter par centiles LTV ... 30%, 50%, 80% (en suivant la règle métier 80/20 ...).

En termes de logiciel, je ne sais pas comment faites-le dans Excel ou STATA. Mais, pour R, il y a une introduction et un exemple mixtes d'analyse de survie utilisant le package survival ici: http://www.stats.uwo.ca/faculty/jones/survival_talk.pdf de Bruce Jones de l'Université de Western Ontario. Je suis Canadien, poursuivez-moi.

Dans son exemple, Death, serait quelque chose comme votre temps moyen entre les achats identifié dans les données comme 0 ou 1 si l'observation a effectué un achat dans le dernier temps moyen entre les achats . Certaines personnes aiment définir cela comme acheté au cours des 3 derniers mois ... mais évidemment, c'est différent pour chaque type d'entreprise. Vous ne seriez pas en voiture tous les mois, n'est-ce pas? C'est donc un jugement de votre part.

Sinon, il y a beaucoup de choses intéressantes que vous pouvez faire avec vos données du point de vue de la Business Intelligence. Prix ​​d'achat moyen, nombre d'articles achetés en fonction des sorties de pile dans un magasin ou des bannières sur un site Web si vous connaissez l'heure à laquelle l'annonce ou la pile a été placée ... ce ne sont que quelques exemples.

Comment l'analyse de survie est-elle liée à la LTV? L'analyse de survie implique un événement discret (éventuellement récurrent) et non une valeur continue (valeur de durée de vie = $).
http://www2.sas.com/proceedings/sugi28/120-28.pdf en est un exemple.
Merci, je vais examiner l'analyse de survie. Quand vous dites qu'il y a beaucoup de choses que je peux faire à partir d'un prospect de Business Intelligence, en quoi cela diffère-t-il de la segmentation des données client?
De nombreuses entreprises utilisent des éléments d'intérêt qui n'ont pas nécessairement d'élément statistique compliqué. Comme le prix d'achat moyen, les articles moyens achetés, le temps moyen entre les achats, la création d'un tableau de bord de ces mesures peut parfois être plus intéressante pour les gens d'affaires que toute segmentation statistique.
#3
+6
B_Miner
2011-08-26 05:42:50 UTC
view on stackexchange narkive permalink

Je suggérerais qu'avec vos données limitées (et peut-être votre expérience limitée du clustering), vous créez simplement un codage RFM et séparez-le dans les trois bacs de votre choix. Sinon, l'analyse de cluster sur les données est une méthode de base pour la segmentation des clients basée sur des variables transactionnelles (bien sûr, vos dates doivent devenir des mesures telles que la distance entre les achats, l'ancienneté et la date d'achat).

J'ai manqué votre réponse en quelque sorte (+1) a supprimé mon doublon.
Merci pour ça. RFM semble intéressant, mais j'avais des questions sur la meilleure façon de trouver des pauses significatives pour les sous-catégories. L'article de wikipedia mentionne CHAID, que je vais examiner.
#4
+2
Ranon
2011-08-26 04:44:32 UTC
view on stackexchange narkive permalink

En général, je serais d'accord avec rolando2. Cependant, si vous êtes intéressé par la catégorisation non supervisée, il existe des méthodes qui peuvent vous fournir des groupes non étiquetés de vos données. Une de ces méthodes est le processus de dirichlet latent (LDA) qui a été utilisé pour la découverte automatique de sujets. K-Means pourrait être mieux adapté à vos besoins, d'autant plus que vous connaissez le nombre de catégories que vous attendez.

#5
+1
aaronjg
2011-08-26 07:18:36 UTC
view on stackexchange narkive permalink

Une façon d'aborder cela consiste à créer un modèle de probabilité des données client. Si vous avez une certaine compréhension du comportement au niveau du client, vous pouvez le modéliser et faire des prédictions sur qui sont vos clients les plus précieux.

Par exemple, vous pouvez supposer que les clients effectuent des achats à un rythme constant jusqu'à ce qu'ils ' mourir.' C'est le genre d'analyse de survie que Brandon a mentionné. Vous pouvez également créer des modèles plus sophistiqués permettant l'hétérogénéité des taux d'achat et de mortalité.

Puisque vous posez des questions sur les outils logiciels, j'aimerais également vous suggérer de consulter mon entreprise, Custora. Nous utilisons des versions plus sophistiquées des modèles que j'ai décrits ci-dessus pour prédire la valeur à vie des clients en fonction des journaux de transactions. L'une des analyses que nous fournissons est la segmentation de la clientèle.

(-1): Je voudrais éviter que crossvalidated.com ne dégénère en une plate-forme où, à chaque question, quelqu'un suggère l'outil commercial de son entreprise. Dans ce cas, il vaut mieux placer des annonces entre les réponses -, -
Il y a très peu de risque d'une telle dégénérescence, @steffen, parce que cette communauté dispose de solides défenses intégrées grâce à des activités d'auto-contrôle et de modérateur de régulation. Dans ce cas, la réponse est légitime, car elle comprend la divulgation et explique pourquoi elle est offerte (quoique très brièvement). BTW, si jamais vous avez une telle inquiétude concernant une réponse, veuillez la signaler à l'attention du modérateur (utilisez le lien "drapeau" juste en dessous de la réponse). Nous nous occuperons du problème rapidement.
J'ai demandé des outils logiciels, alors en signaler un est juste. Quel est le modèle le plus sophistiqué que vous utilisez?
#6
  0
Prometheus
2017-01-12 17:29:33 UTC
view on stackexchange narkive permalink

Vous pouvez considérer le problème comme un problème avec plusieurs objectifs. Disons qu'un bon client est celui qui:

  1. Dépense un montant moyen élevé par achat (rapporte de l'argent)
  2. Effectue de nombreux achats (montre de la confiance)
  3. Effectue des achats sur une longue durée (montre de la fidélité)

Les objectifs correspondants sont donc:

  1. Maximiser le montant moyen en $ dépensé par achat $
  2. Maximiser $ TotalNumberOfPurchases $
  3. Maximiser $ AverageTimeIntervalB BetweenPurchases $

Traiter tous les clientssont des solutions et triez-les en utilisant le tri non dominé.Notez que vous n'avez pas besoin d'exécuter l'algorithme génétique, il suffit de trier les solutions une fois.

Disons que le tri non dominé vous donne 5 rangs.Vous pouvez attribuer les rangs 1 et 2 comme bons clients, classer 3 comme bons clients et rester comme mauvais clients.



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...