Je suis généralement d'accord avec la réponse de @ PeterFlom. À mon avis, vous ne devriez pas faire la moyenne de vos données (vous jetez essentiellement 2/3 de vos informations, pourquoi voudriez-vous faire cela?), Mais vous devez absolument tenir compte du fait que les mesures sur le même patient auront tendance à être plus proches que les mesures effectuées sur différents patients. Dans une telle situation, je recommande généralement des modèles linéaires mixtes, qui sont une simple instance des modèles multi-niveaux recommandés par @PeterFlom.
Plus précisément, vous utiliseriez un modèle mixte linéaire généralisé. La fonction de liaison serait logistique, comme dans la régression logistique «ordinaire». Cependant, la forme fonctionnelle inclurait de multiples observations sur chaque participant, modélisées par un effet aléatoire, tout comme dans les modèles mixtes linéaires «ordinaires», $ y∼F (Xβ + Zγ) $. Dans R, vous pouvez ajuster cela par glmer () dans le paquet lme4, en utilisant la famille binomiale. Pour la prédiction, vous pouvez utiliser une seule mesure.
Il est bien entendu difficile de dire si un modèle mixte prédit mieux qu'un modèle non mixte dans un contexte particulier. Le modèle mixte tient compte de la variabilité intra-individuelle. Si vous faites la moyenne des trois points de données d'origine, vous perdez toute la variabilité entre les mesures, vous serez donc trop optimiste quant à votre capacité à prédire à partir d'une seule nouvelle observation.
Si, au contraire, vous ajoutez simplement toutes les observations sans prendre en compte le regroupement, vous serez encore une fois trop optimiste, car toutes les erreurs standard vont diminuer. Pensez à ce qui se passerait si vous commenciez avec une seule observation par participant, disons 100 points de données ... et que vous copiiez simplement chaque observation 100 fois. Vous vous retrouveriez avec 10 000 «observations» et des erreurs standard bien plus petites qu'avec les données d'origine, bien que vous n'ayez pas entré de nouvelles informations.
De plus, les modèles mixtes permettent de modéliser d'autres facteurs de regroupement, comme l'emplacement, ses caractéristiques démographiques spécifiques, son personnel, les caractéristiques diagnostiques, etc. Ils sont donc beaucoup plus généraux que la moyenne.