Je veux comparer 2 vecteurs de longueur 43; ils ont des valeurs de 0 (non présent) et 1 (présent). Je ferai référence à $ M_ {1,1} $ comme des situations dans lesquelles les deux 1 sont présents, et $ M_ {1,0} $ et $ M_ {0,1} $ à des situations dans lesquelles un seul 1 est présent alors que le l'autre valeur est 0.
data3 $ IDS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 données3 $ CESD 1 1 1 0 1 1 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1
Je veux comprendre comment ces 2 vecteurs sont liés. En lisant sur le sujet, l'index Jaccard semble être la voie à suivre. Dans ce cas précis, l'index Jaccard serait (notez que j'utilise la formule donnée à côté du deuxième chiffre sur Wikipedia): $$ \ frac {M_ {1,1}} {(M_ {1,0} + M_ {0,1} - M_ {1,1})} $$ Dans mon cas: $ 8 / (23 + 12 - 8) = 0.2962963 $
En utilisant:
bibliothèque ('clusteval') cluster_similarity (data3 $ IDS, data3 $ CESD, similarity = "jaccard", method = "indépendance")
Renvoie:
0.553429
Je ne comprends pas vraiment pourquoi et où est l'erreur que je fais.
Une autre chose que je ne comprends pas est les cas de chevauchement élevé. Imaginez $ M_ {1,1} = 30 $, avec seulement des valeurs de $ 2 $ chacune dans les cellules $ M_ {1,0} $ et $ M_ {0,1} $. Cela conduirait à un indice Jaccard de 30 $ / (2 + 2-30) = -1,153846 $.
Mais l'indice J n'est défini qu'entre 0 et 1. Où est mon malentendu?