Question:
Quelle est la probabilité que 4 personnes dans le groupe de 18 puissent avoir le même mois de naissance?
forecaster
2020-06-15 04:42:13 UTC
view on stackexchange narkive permalink

Ceci est not un devoir de classe.

Il se trouve que 4 membres de mon équipe de 18 personnes partageaient le même mois de naissance. Disons juin. . Quelles sont les chances que cela se produise. J'essaie de présenter cela comme un problème de probabilité lors de notre réunion d'équipe.

Voici ma tentative:

  • Tous les résultats possibles 12 $ ^ {18} $
  • 4 personnes choisies parmi 18: 18 $ C_4 $
  • Le mois courant peut être choisi de 1 manière: 12 $ C_1 $

Ainsi, la probabilité que 4 personnes sur 18 partagent le même mois de naissance est $ \ frac {18C_4 * 12C_1} {12 ^ {18}} $ = très très petit nombre.

Questions:

  1. Est-ce la bonne façon de résoudre ce problème?
  2. Quelle est la probabilité qu'il y ait exactly 4 personnes partageant un mois de naissance?
  3. Quelle est la probabilité qu'il y ait at less 4 personnes (4 personnes ou plus) partageant un mois de naissance?

Remarque: je sais que tous les mois ne sont pas égaux, mais pour simplifier, supposons que tous les mois ont des chances égales.

Exactement 4 ou au moins 4 sur 18?
Incluez-vous ou excluez-vous qu'il y ait deux (, trois ou quatre) sous-groupes de quatre personnes, chaque membre d'un sous-groupe donné partage le même mois de naissance et aucun sous-groupe n'a le même mois de naissance.
Sept réponses:
Thomas Lumley
2020-06-15 06:34:53 UTC
view on stackexchange narkive permalink

Vous pouvez voir que votre argument n'est pas correct en l'appliquant au problème d'anniversaire standard, où nous savons que la probabilité est de 50% à 23 personnes. Votre argument donnerait $ \ frac {{23 \ choose 2} {365 \ choose 1}} {365 ^ {23}} $ , ce qui est très petit. L'argument habituel est de dire que si nous voulons éviter une coïncidence, nous avons $ 365- (k-1) $ choix pour le $ k $ e anniversaire de la personne, donc la probabilité qu'il n'y ait pas de coïncidence chez $ K $ personnes est de $ \ prod_ {k = 1} ^ K \ frac {365-k + 1} {365} $

Malheureusement, il n'y a pas d'argument aussi simple pour plus de deux anniversaires coïncidents. Il n'y a qu'une seule façon (jusqu'à la symétrie) pour les personnes de $ k $ de ne pas avoir de coïncidence bidirectionnelle, mais il existe de très nombreuses façons de ne pas avoir coïncidence, de sorte que le calcul au fur et à mesure que vous ajoutez des personnes n'est pas simple. C'est pourquoi R fournit pbirthday () et pourquoi ce n'est encore qu'une approximation. J'espère certainement que ce n'était pas un devoir de classe.

La raison pour laquelle votre argument n'est pas correct est qu'il sous-estime le nombre de façons dont vous pouvez obtenir 4 mois correspondants. Par exemple, ce n'est pas seulement que vous pouvez choisir n'importe quel mois des 12 comme correspondant. Vous pouvez également renommer les 11 autres mois de manière arbitraire (ce qui vous donne un facteur de 11!). Et votre dénominateur de 12 $ ^ {18} $ implique que l'ordre des personnes compte, donc il y a plus de 18 $ \ choisissez 4 $ commandes comportant 4 correspondances.

Henry
2020-06-16 06:00:54 UTC
view on stackexchange narkive permalink

Il y a des 43 $ partitions de 18 $ dans 12 $ parties non négatives où la plus grande partie est 4 $ $ , alors qu'il y a un autre 298 $ span> partitions dont la plus grande partie est supérieure à 4 $ $ et 25 $ $ partitions où la plus grande partie est moins de 4 $ $ .

Par exemple, une partition est $$ 18 = 4 + 3 + 3 + 2 + 2 + 1 + 1 + 1 + 1 + 0 + 0 + 0 \\ = 1 \ times 4 + 2 \ fois 3 + 2 \ fois2 + 4 \ fois 1 + 3 \ fois 0 $$

La probabilité que ce modèle de partition particulier se produise parmi les mois de naissance de votre équipe est $ \ dfrac {\ dfrac {18!} {4! ^ 1 3! ^ 2 2! ^ 2 1! ^ 4 0! ^ 3} \ times \ dfrac {12!} {1! 2! 2! 4! 3!}} {12 ^ {18}} \ environ 0,05786545 $

Additionnez les probabilités où la plus grande partie de la partition est 4 $ $ et vous obtenez environ 0,4165314 $ span >; ajoutez-les là où la plus grande partie de la partition est $ 4 $ ou plus et vous obtenez environ $ 0,5771871 $ . Voici les réponses à votre question.

Plus précisément, les probabilités pour les différentes fréquences du mois le plus fréquent sont les suivantes. $ 4 $ s'avère être le plus probable et la médiane (la moyenne est d'environ 3,76 $ )

  Fréq du mois le plus fréquent Probabilité
            dix
            2 0,0138050
            3 0,4090079
            4 0,4165314
            5 0,1297855
            6 0,0262102
            7 0,0040923
            8 0,0005116
            9 0,0000517
10 0,00000423
           11 0,00000000280
           12 0,0000000148
           13 0,00000000000622
           14 0,000000000000202
           15 0,00000000000000490
           16 0,0000000000000000834
           17 0,000000000000000000892
           18 0,00000000000000000000451
 
Soigné!Pouvez-vous dire d'où proviennent les informations sur le nombre de partitions?
@ThomasLumley J'ai utilisé la fonction `parts` du package R` partitions` puis j'ai compté celles qui m'intéressaient
- "Cher directeur d'école, l'année dernière, nous avons divisé nos 216 élèves en douze classes par ordre alphabétique et certains enseignants n'étaient pas satisfaits. Quel est le nouveau plan?"- "Oh, cette année nous les avons divisés par date de naissance; il est temps de gagner un pari de 1 sur un billion."
Dave2e
2020-06-15 05:19:29 UTC
view on stackexchange narkive permalink

La bonne façon de résoudre le problème de 2 coïncidences est de calculer la probabilité que 2 personnes ne partagent pas le même mois d'anniversaire.

Pour cet exemple, la deuxième personne a 11/12 de chances de ne pas partager le même mois que la première.
La troisième personne a 10/12 chances de ne pas partager le même mois que 1 &2.
La quatrième personne a 9/12 chances de ne pas partager le même mois que 1, 2 & 3.
Ainsi, la chance que personne ne partage le même mois est $ (11 * 10 * 9) / 12 ^ 3 $ , soit environ 57%. Ou 43% de chances qu'au moins 2 partagent le même mois.

Je ne peux pas donner de conseils sur la façon d'étendre ce calcul manuel au problème 3 ou 4 coïncident. Si vous connaissez R, il y a la fonction pbirthday () pour calculer ceci:

  pbirthday (18, classes = 12, coïncidence = 4)
[1] 0,5537405
 

Donc, pour 18 personnes, il y a 55% de chances qu'au moins 4 personnes partagent le même mois.

Voici une bonne source pour comprendre le problème: https://www.math.ucdavis.edu/~tracy/courses/math135A/UsefullCourseMaterial/birthday.pdf

Modifier Pour être complet, voici une simulation rapide et sale dans R:

  quatre <- 0 #count pour exactement 4
fourmore <- 0 #count pour 4 ou plus

count<-100000
for (i in 1: count) {
   #échantillonner 12 objets, dix-huit fois
   m<- échantillon (1:12, 18, remplacer = TRUE)
   
   if (any (table (m) > = 4)) {fourmore <-fourmore +1}
   if (any (table (m) == 4)) {quatre <-quatre +1}
}

impression (quatre plus / nombre)
# [1] 0,57768
imprimer (quatre / nombre)
# [1] 0,45192
 
D'après la référence documentée (Diaconis & Mosteller 1989), `pbirthday` utilise une" approximation valable pour $ k $ fixe [= 4 ici] et grand $ c $ [= 12 ici] ".On ne sait pas si 12 est suffisamment «grand».De plus, cette fonction estime la probabilité de «$ k $ ou plus dans la même catégorie» plutôt que exactement $ k $ dans la même catégorie.Pour ces deux raisons, votre réponse est suspecte.Cela pourrait être presque juste par accident, mais cela devrait être vérifié, ne serait-ce que par une simulation rapide.Mieux vaut utiliser «pmultinom» dans le paquet «pmultinom».
@Henry, bonne suggestion, mais après avoir vu la réponse de Phil et examiné le commentaire de whuber, la fonction pbirthday semble perdre de sa précision lors d'une coïncidence plus élevée.J'ai effectué une simulation similaire à celle de Phil et j'ai obtenu un résultat d'environ 45% pour exactement 4 coïncidents, (et 57% pour au moins 4).
@Dave2e - très sage - bien que pour exactement 4 $ ma simulation soit plus proche de 0,42 $ et la suggestion de Whuber de `pmultinom` semble suggérer 0,4165314 $ pour exactement 4 $ et 0,5771871 $ pour au moins 4 $ le mois le plus courant
L'inspection du code de `pbirthday` montre également qu'il est basé sur une approximation.L'article de Diaconis et Mosteller ne donne pas de formule exacte.Je suis sûr que l'on peut trouver une formule exacte dans la littérature, mais c'est probablement assez moche.
@Michael Lisez l'article de Diaconis & Mosteller: ils font référence à une formule * exacte * de Bruce Levin.La formule de Levin est la base de «pmultinom».Ce n'est pas du tout moche!
@MichaelLugo `1-pmultinom (upper = rep.int (3,12), size = 18, probs = rep.int (1/12, 12), method =" exact ")` me donne 0,5771871
J'ai remarqué que vous avez dit: «Ainsi, la probabilité que personne ne partage le même mois est de (11 ∗ 10 ∗ 9) / 123, ce qui est d'environ 57%. Ou 43% de chance d'au moins 2 partageant le même mois».Ceci est pour trois personnes.Cependant, lorsque le nombre de personnes est de 12 ou plus, cette formule ne fonctionne pas bien car avec 12 personnes et plus, il doit y avoir au moins un sous-groupe avec le même mois de naissance.
@NomadMaker, La formule est correcte, suivant la même logique que lorsque la douzième personne que la formule devient est de 11 $! / 12 ^ {11} $ (qui est égal à 12 $! / 12 ^ {12} $).Désormais, lorsque la treizième personne est ajoutée, il y a 0/12 chance de ne pas avoir le même mois, donc la formule est maintenant de 0 $ * 12! / 12 ^ {13} $ ou 0% de chance qu'il n'y ait pas de mois correspondant.
Le résultat du package R de 0,5537405 est incorrect. La réponse exacte pour 4 ou plus de partage par mois est 555795868793273/962938848411648 ~ 0,577187 et pour exactement 4 c'est 19807122209875/47552535724032 ~ 0,416531
Votre ligne `if (any (table (m) == 4)) {four <- four +1}` compte les cas où au moins un mois a exactement 4 $ anniversaires même si un autre a 5 $ ou plus, un plus notableun événement.Si vous faites quelque chose comme `if (max (table (m)) == 4) {quatre <- quatre +1}` alors `print (four / count)` serait plus proche de 0,4165 $
@Henry, oui point valide.J'ai écrit ceci pour confirmer la fonction pbirthday, qui, comme mentionné précédemment, est inexacte pour ce cas.Je n’ai pas examiné le cas que vous avez mentionné ou si seulement 1 mois devrait avoir 4 matchs et les autres moins de 4.
Sextus Empiricus
2020-06-16 15:28:44 UTC
view on stackexchange narkive permalink

Bien qu'Henry ait déjà donné un moyen de calculer exactement le nombre en comptant toutes les partitions, il pourrait être intéressant de connaître deux méthodes approximatives.

De plus, il existe un calcul exact alternatif basé sur des variables distribuées conditionnelles de Poisson.

Simulation informatique

Vous ne pourrez pas facilement calculer toutes les possibilités de $ 12 ^ {18} $ (et il ne sera pas facile de faire évoluer le problème), mais vous pouvez demander à un ordinateur de simuler au hasard un sous-ensemble des méthodes possibles et d’obtenir une distribution à partir de ces simulations.

  # fonction pour échantillonner 18 mois de naissance
# et obtenez le nombre maximum de mois similaires
monthample <- fonction () {
  x <- échantillon (1: 12,18, replace = TRUE) # échantillon
  n <- max (table (x)) # obtenir le maximum
  retour (n)
}

# échantillonner un million de fois
y <- répliquer (10 ^ 6, mois échantillon ())

# obtenir la fréquence à l'aide d'un histogramme
h<-hist (y, pauses = seq (-0.5,18.5,1))
 

Approximation avec Poissonation

La fréquence du nombre d'anniversaires dans un mois donné est approximativement distribuée Poisson / binomiale. Sur cette base, nous pouvons calculer la probabilité que le nombre d'anniversaires dans un mois particulier ne dépasse pas une certaine valeur, et en prenant la puissance de douze, nous calculons la probabilité que cela se produise pendant les douze mois.

Remarque: ici on néglige le fait que le nombre d'anniversaires est corrélé donc ce n'est évidemment pas exact.

  # approximation avec distribution de Poisson
t <- 0:18
z <- ppois (t, 1,5) ^ 12 # P (max < = t)
dz <- diff (z) # P (max = t + 1)
 

Calcul avec la représentation de Bruce Levin

Dans les commentaires, Whuber a pointé le paquet pmultinom. Ce paquet est basé sur Bruce Levin 1981 'A Representation for Multinomial Cumulative Distribution Functions' dans Ann. Statist. Volume 9 . Le résultat des mois de naissance (qui est plus précisément distribué selon une distribution multinomiale) est représenté comme des variables distribuées de Poisson indépendantes. Mais contrairement au calcul naïf mentionné précédemment, la distribution de ces variables distribuées de Poisson est considérée comme conditionnelle sur la somme totale égale à $ n = 18 $ .

Nous avons donc calculé ci-dessus $$ P (X_1, X_2, \ ldots, X_ {12} \ leq 4) = P (X_1 \ leq 4) \ cdot P (X_1 \ leq 4) \ cdot \ ldots \ cdot P (X_ {12} \ leq 4) $$ mais nous aurions dû calculer la probabilité conditionnelle pour que les variables distribuées de Poisson soient toutes égales ou inférieures que $$ P (X_1, X_2, \ ldots, X_ {12} \ leq 4 \ vert X_1 + X_2 + \ ldots + X_ {12} = 18) $$ qui introduit un terme supplémentaire basé sur la règle de Bayes.

$$ P (\ forall i: X_i \ leq 4 \ vert \ sum X_i = 18) = P (\ forall i: X_i \ leq 4) \ frac {P ( \ sum X_i = 18 \ vert \ forall i: X_i \ leq 4)} {P (\ sum X_i = 18)} $$

Ce facteur de correction est le rapport de la probabilité qu'une somme de variables distribuées de Poisson tronquées égale 18 $ P (\ sum X_i = 18 \ vert \ forall i: X_i \ leq 4 ) $ , et la probabilité qu'une somme de variables régulières de Poisson distribuées soit égale à 18, $ P (\ sum X_i = 18) $ . Pour un petit nombre de mois de naissance et de personnes dans le groupe, cette distribution tronquée peut être calculée manuellement

  # facteur de correction par Bruce Levin
correction <- fonction (y) {
  Nptrunc (y) [19] / dpois (18,18)
}

Nptrunc <- fonction (lim) {

  # distribution de Poisson tronquée
ptrunc <- dpois (0: lim, 1.5) / sum (dpois (0: lim, 1.5))
  
  ## vecteur avec probabilités
  outvec <- rep (0, lim * 12 + 1)
  outvec [1] <- 1
  
  #convolve 12 fois par mois
  pour (i en 1:12) {
    newvec <- rep (0, lim * 12 + 1)
    pour (k en 1: (lim + 1)) {
      newvec <- newvec + ptrunc [k] * c (rep (0, k-1), outvec [1: (lim * 12 + 1- (k-1))])
    }
    outvec <- newvec
  }
  outvec
}

z2 <- ppois (t, 1.5) ^ 12 * Vectoriser (correction) (t) # P (max< = t)
z2 [1: 2] <- c (0,0)
dz2 <- diff (z2) # P (max = t + 1)
 

Résultats

Ces approximations donnent les résultats suivants

distribution graph

  > ### simulation
Somme d'> (y> = 4) / 10 ^ 6
[1] 0,577536
Calcul > ###
> 1-z [4]
[1] 0,5572514
> ### calcul exact
> 1-z2 [4]
[1] 0,5771871
 
Ben
2020-06-16 17:18:58 UTC
view on stackexchange narkive permalink

Il se trouve que 4 membres de mon équipe de 18 personnes partageaient le même mois de naissance. Disons juin. Quelles sont les chances que cela se produise? J'essaie de présenter cela comme un problème de probabilité lors de notre réunion d'équipe.

Il y a plusieurs autres bonnes réponses ici sur les mathématiques du calcul des probabilités dans ces "problèmes d'anniversaire". Un point à noter est que les anniversaires ne sont pas uniformément répartis sur les jours civils, donc l'hypothèse d'uniformité qui est utilisée dans la plupart des analyses sous-estime légèrement la vraie probabilité de grappes comme celle-ci. Cependant, en mettant ce problème de côté, j'aimerais avoir un peu de "méta" sur vous ici et vous encourager à penser à ce problème un peu différemment, car il implique beaucoup de "biais de confirmation".

Le biais de confirmation se produit dans ce contexte parce que vous êtes plus susceptible de prendre note d'un résultat et de rechercher une analyse probabiliste de ce résultat s'il est inhabituel (c.-à-d. faible probabilité). Pour le dire autrement, pensez à toutes les fois précédentes de votre vie où vous étiez dans une pièce avec des gens et où vous avez appris le mois de leur anniversaire et les résultats n'étaient pas inhabituels. Dans ces cas, j'imagine que vous n'avez pas pris la peine de venir sur CV.SE et de poser une question à ce sujet. Donc, le fait que vous posiez ici cette question est un événement de conditionnement important, qui ne se produira que si vous observez quelque chose qui est suffisamment inhabituel pour justifier la question. Compte tenu de cela, la probabilité conditionnelle du résultat que vous avez observé, conditionnelle à votre présence à poser cette question, est assez élevée --- beaucoup plus élevée que l'analyse dans les autres réponses ne le suggère.

Pour examiner cette situation de manière plus formelle, considérez ces événements suivants:

$$ \ begin {matrix} \ mathcal {A} (x, y) & & & \ text {Voir} x \ text {personnes avec le même mois d'anniversaire sur} y \ text {personnes aléatoires}, \\ [6pt] \ mathcal {B} & & & \ text {Décider du résultat observé justifie une enquête probabiliste}.\ \ end {matrix} $$

La plupart des réponses ici vous indiquent comment estimer $ \ mathbb {P} (\ mathcal {A} (4,18)) $ mais lela probabilité en jeu ici est la probabilité conditionnelle $ \ mathbb {P} (\ mathcal {A} (4,18) | \ mathcal {B}) $ , qui estmuch, much supérieur (et ne peut pas vraiment être calculé ici).

Phil M Jones
2020-06-15 19:33:21 UTC
view on stackexchange narkive permalink

Les mathématiques me dépassent largement.Cependant, ce genre de chose me fascine, alors j'ai construit une feuille de calcul pour reproduire cela pour 10 000 groupes de 18 personnes chacun avec un mois de naissance généré au hasard.J'ai ensuite compté combien de ces groupes comptaient exactement quatre personnes avec un mois de naissance partagé.Pour les puristes, comme la question ne le précisait pas, j'ai également inclus les incidences de quatre personnes partageant un mois de naissance et quatre personnes distinctes partageant un mois de naissance différent.Je n'ai pas non plus exclu trois ou quatre groupes de quatre partageant respectivement trois ou quatre mois de naissance différents.

J'ai exécuté cette feuille de calcul 50 fois et le résultat le plus bas que j'ai obtenu était de 43,95%.Le plus élevé était de 46,16%.La moyenne était de 45,05%.

Je laisserai à quelqu'un de plus expérimenté le soin de faire le calcul pour valider ce résultat approximatif!

Merci, j'ai eu ~ 57%, j'ai directement simulé le nombre de fois où l'on rencontrerait> = 4 personnes ayant le même mois de naissance.
Forecaster, vous avez maintenant formulé votre question de deux manières distinctes: voulez-vous la chance que * exactement * quatre personnes partagent un mois de naissance ou que * quatre ou plus * personnes partagent un mois de naissance?
Merci @whuber, j'ai clarifié cela dans la question.
rasher
2020-06-17 02:51:08 UTC
view on stackexchange narkive permalink

C'est un problème de balles dans les bacs.

La probabilité que l'occupation maximale de n'importe quel bac soit $ m $ , étant donné les bacs $ n $ et $ r $ boules allouées aléatoirement est le coefficient de $ x ^ r $ dans

$ \ begingroup \ Large \ begin {équation} \ left (\ sum _ {i = 0} ^ m \ frac {x ^ i} {i!} \ right)^ n \ end {équation} \ endgroup $

multiplié par $ \ begingroup \ Large \ begin {equation} r!n ^ {- r} \ end {équation} \ endgroup $

L'évaluation de ceci pour les cas "4 ou plus" et "exactement 4" donne $$ \ frac {555795868793273} {962938848411648} \ environ 0,577187 $$ et $$ \ frac {19807122209875} {47552535724032} \ approx 0.416531 $$ respectivement pour votre requête.

J'ai peaufiné votre LaTeX pour le rendre plus lisible.Si vous ne l'aimez pas, veuillez l'annuler avec mes excuses.
@SycoraxsaysReinstateMonica pas de soucis, je souffle chez LaTeX, donc j'apprécie!


Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 4.0 sous laquelle il est distribué.
Loading...