Quel est le PDF pour la différence minimale entre un nombre aléatoire et un ensemble de nombres aléatoires

Steven Sagona

2019-12-15 10:35:53 UTC

view on stackexchange narkive permalink

J'ai une liste (appelons-la $ \ {L_N \} $ ) de N nombres aléatoires $ R \ dans (0,1) $ (choisi dans une distribution uniforme). Ensuite, je lance un autre nombre aléatoire de la même distribution (appelons ce nombre "b"). Maintenant, je trouve l'élément dans la liste $ \ {L_N \} $ qui est le plus proche du nombre "b" et trouve cette distance.

Si je répète ce processus, je peux tracer la distribution des distances obtenues grâce à ce processus.

Quand $ N \ to \ infty $ , qu'est-ce que cette distribution approche?

Quand je simule cela dans Mathematica, il semble que cela approche une fonction exponentielle. Et si la liste était longue d'un élément, alors je pense que cela suivrait exactement une distribution exponentielle.

En regardant le wikipedia pour les distributions exponentielles, je peux voir qu'il y a une discussion sur le sujet:

Mais j'ai du mal à interpréter ce qu'ils disent ici. Qu'est-ce que "k" ici? Mon cas est-il ce qu'ils décrivent ici dans la limite où $ n \ to \ infty $ ?

EDIT: Après une réponse intuitive très utile de Bayequentist, je comprends maintenant que le comportement comme $ N \ to \ infty $ devrait approcher une fonction dirac delta. Mais j'aimerais quand même comprendre pourquoi mes données (qui sont comme le minimum d'un tas de distributions exponentielles), semblent également être exponentielles. Et y a-t-il un moyen de comprendre ce qu'est exactement cette distribution (pour un N grand mais fini)?

Voici une image de ce à quoi ressemble une telle distribution pour N grand mais fini:

EDIT2: Voici du code python pour simuler ces distributions:

 % matplotlib en ligne
importer des mathématiques
importer numpy comme np
importer matplotlib comme mpl
importer matplotlib.pyplot comme plt
numpoints = 10000
NBINS = 1 000
randarray1 = np.random.random_sample ((numpoints,))
randarray2 = np.random.random_sample ((numpoints,))

dtbin = []

pour i dans la plage (len (t1)):
    dt = 10 000 000
    pour j dans la plage (len (t2)):
        delta = t1 [i] -t2 [j]
        si abs (delta) < abs (dt):
            dt = delta
    dtbin.append (dt)

plt.figure ()
plt.hist (dtbin, bins = NBINS)
plt.show ()

L'exponentielle peut être une approximation raisonnable, mais votre distance minimale ne sera certainement pas vraiment distribuée exponentiellement: l'exponentielle a un support illimité, mais votre distance est limitée entre 0 et 1.

Je suis assez confus en ce moment: / Pouvez-vous également partager le code que vous avez utilisé pour générer cette image?

D'accord, j'ai ajouté du code python qui peut produire ces images.

Il me semble que cela va converger vers le delta de Dirac.Avez-vous essayé des échantillons de plus grande taille (100k, 1m, 10m ...)?(assurez-vous que la plage de l'axe x est cohérente) La seule différence entre mon code et le vôtre est que vous autorisez les distances à être négatives.Si vous prenez la valeur absolue des distances, votre tracé ressemblera au mien.

De plus, le nombre de b (appelons-le nSim) n’a pas besoin d’être aussi grand que N!Si vous faites également nSim = N = 1m, votre code prendra une éternité à s'exécuter.Vous pouvez essayer de corriger nSim = 10k et observer comment la distribution change de forme lorsque N passe de 10k à 100k.

Pour adresser votre modification, regardez (1) la plage sur votre axe x et (2) le fait qu'@Bayequentist utilise la différence absolue pendant que vous utilisez la différence réelle.Si vous utilisez la différence absolue, vous obtiendrez la même forme que Bayequentist, et en regardant la plage de votre axe x, vous regardez ** très ** petits nombres tels qu'ils sont.

Il y a un aspect de la question qui n'est pas vraiment clair.Vous écrivez: "Si je répète ce processus" ... Mais, lorsque vous répétez le processus, gardez-vous la valeur de $ b $ qui a été générée ou générez-vous un nouveau $ b $ à chaque fois?Il semble que vous souhaitiez ce dernier - pouvez-vous s'il vous plaît confirmer.

@wolfies, Je génère une nouvelle valeur de b à chaque fois.Vous pouvez le voir dans le code de simulation: je génère deux listes aléatoires.Ensuite, pour chaque élément de la deuxième liste, je trouve la distance minimale entre tous les éléments de la première liste et un élément de la deuxième liste.Ensuite, je collecte chacune des distances obtenues dans ce processus.(Et c'est ce que je trace sous forme de PDF simulé)

(À Bayequentist & duckmayr): Je suis d'accord avec vous deux.La valeur absolue ne fait pas beaucoup de différence dans le problème, et la fonction devrait approcher une fonction delta pour un N infiniment grand.Mais ce que j'essayais de comprendre, c'était comment je pouvais comprendre le PDF pour un tel système, et j'ai fait leerreur en pensant que je serais satisfait d'une réponse qui montre la limite du pdf pour N infiniment grand, alors que j'en avais vraiment besoin pour un N fini mais grand. Désolé si un tel pivot était une cible mobile, mais j'espère que la discussion étendue sera utile pourautres futurs lecteurs.