Vos collègues ont tort.
Il est possible qu'ils fondent leur suggestion sur le fait que la robustesse des tests paramétriques typiques, comme un t -test, aux violations des hypothèses est gravement compromise avec des N déséquilibrés . Mais si vous ne les violez pas, un N plus élevé est préférable, même s'il est déséquilibré. Et vous pouvez toujours examiner l'effet de toute violation par simulation.
Un moyen simple d'imaginer pourquoi l'échantillonnage de 8 des 100 sujets de contrôle est une mauvaise idée, est de représenter deux graphiques de vos données qui diffèrent par le groupe de contrôle. Chacun a les mesures du volume cérébral du patient et du contrôle et un intervalle de confiance (IC) autour de chaque mesure. Dans chaque graphique, l'IC autour du groupe de test sera le même. Mais l'IC autour du groupe de contrôle sera beaucoup plus petit avec l'ensemble complet de 100 qu'il ne sera autour d'un échantillon de 8. Quel graphique aimeriez-vous présenter?
D'autres questions à vous poser pour décider si Pour utiliser les 100 échantillons de contrôle ou seulement 8, incluez: Selon vous, lequel a une meilleure estimation de la moyenne de contrôle? Lequel aurait une meilleure estimation de la variance de contrôle? Lequel est le plus représentatif de la population? La réponse à toutes ces questions est le groupe plus large. Et il est beaucoup plus important de relier des estimations précises de vos paramètres que les problèmes que vous pourriez rencontrer avec un test particulier.
REMARQUE : il est à distance possible que l'échantillon de contrôle de 8 CI soit plus petit que celui du groupe témoin complet. Cependant, cela signifierait probablement que votre échantillon de contrôle de 8 est un échantillon terrible et met en évidence pourquoi vous voulez vous en tenir à l'ensemble de données complet.