Approches de clustering déterministes

geotheory

2016-04-06 19:06:30 UTC

view on stackexchange narkive permalink

J'ai besoin d'une méthode de clustering déterministe [dans le sens - robuste aux méthodes d'entrée initiale / graines initiales] pour regrouper les valeurs dans des distributions qui pourraient être aléatoires, normales ou log-normales. Google affiche principalement des k-means, ce qui n'est pas déterministe. La correction des entrées stochastiques (par exemple set.seed de R) est moins souhaitable que les méthodes qui renvoient toujours des résultats identiques pour un ensemble particulier, donc je peux commencer à comprendre et prédire leur comportement . Une telle méthode de clustering existe-t-elle?

On ne sait pas quelles sont vos données et que voulez-vous que votre algorithme «déterministe» fasse?En outre, chacune des méthodes qui utilise des nombres aléatoires est déterministe compte tenu de la graine.De nombreux algorithmes vous permettront d'utiliser vos propres valeurs de départ (au lieu de valeurs aléatoires), mais dans de nombreux cas, l'utilisation de valeurs de départ aléatoires différentes vous permet d'empêcher l'algorithme de renvoyer de faux résultats ...

Merci Tim, je pense que vos points sont déjà traités dans ma question.

Je ne connais pas assez le sujet pour vraiment donner une réponse formelle, mais je sais qu'il y a des recherches en cours dans [clustering convexe] (http://arxiv.org/pdf/1304.0499.pdf) qui devraient être une réponseà votre question: en rendant la fonction objectif convexe, vous assurez un minimum global sans autre minimum local.Mais c'est à peu près tout ce que je sais pour le moment.

D'accord avec @CliffAB ici.Le clustering convexe est la voie à suivre.Il a été développé exactement pour ce cas - que tant que vous utilisez la même valeur du paramètre de réglage, vous retournez les mêmes clusters EXACT.Je crois que c'est ce à quoi vous faisiez allusion lorsque vous dites «déterministe» (ce qui serait plus adéquatement appelé _reproductible_).Vous devriez vérifier ce package R: [CVXcluster] (https://cran.r-project.org/web/packages/cvxclustr/cvxclustr.pdf) et ses références.

Je suis d'accord avec Tim pour dire qu'il serait utile d'en savoir un peu plus sur le problème.Lorsque vous dites «déterministe», voulez-vous dire que les mêmes choses se retrouvent dans des grappes à chaque fois, ou qu'elles se retrouvent exactement dans le même numéro de grappe?Le nombre de clusters est-il fixe ou non?Lorsque vous dites "prédire leur comportement", essayez-vous vraiment de trouver une méthode supervisée qui utilise les nombres de grappes comme cible?Ou autre chose?

Est-ce également pour un ensemble fixe de données d'entraînement / de test?Parce que même avec des algorithmes complètement déterministes, si vos données d'entraînement varient entre les tentatives, les clusters le seront probablement aussi.Si les données d'entraînement * sont * fixes, quel est le problème avec l'utilisation d'une graine aléatoire fixe?

Je me suis contenté de "gaz neural" à la fin - par ex.`cclust :: cclust (..., méthode = 'névralgies')`

@naught101, Dites-vous que l'utilisation d'une graine aléatoire fixe fait du clustering de base k-means (algorithme non déterministe) un algorithme déterministe ?.Cela signifie que l'exécution de l'algorithme plusieurs fois sur les mêmes données donnerait les mêmes résultats.

@anu, en supposant la même implémentation, alors oui, sauf si je manque quelque chose.Que ce soit un fait utile ou non, je ne sais pas.