Tout d'abord, je ne pense pas qu'il y ait beaucoup de questions de la forme "Est-ce une bonne pratique de toujours X en machine learning" où la réponse va être définitive. Toujours? Toujours toujours? À travers des modèles paramétriques, non paramétriques, bayésiens, de Monte Carlo, des sciences sociales, purement mathématiques et des millions de modèles d'entités? Ce serait bien, non!
Mais concrètement, voici quelques façons dont: cela dépend.
Parfois, quand la normalisation est bonne:
1) Plusieurs algorithmes, en particulier les SVM qui me viennent à l'esprit, peuvent parfois converger beaucoup plus rapidement sur des données normalisées (même si pourquoi, précisément, je ne m'en souviens pas).
2) Lorsque votre modèle est sensible à la magnitude et que les unités de deux entités différentes sont différentes et arbitraires. C'est comme le cas que vous suggérez, dans lequel quelque chose a plus d'influence qu'il ne le devrait.
Mais bien sûr, tous les algorithmes ne sont pas sensibles à la magnitude comme vous le suggérez. Les coefficients de régression linéaire seront identiques si vous mettez ou non vos données à l'échelle, car elles examinent les relations proportionnelles entre elles.
Parfois, la normalisation est mauvais:
1) Lorsque vous voulez interpréter vos coefficients, et qu'ils ne se normalisent pas bien. La régression sur quelque chose comme les dollars vous donne un résultat significatif. La régression sur la proportion de dollars maximum dans l'échantillon pourrait ne pas l'être.
2) Quand, en fait, les unités de vos entités sont significatives et que la distance fait une différence! Revenons aux SVM - si vous essayez de trouver un classificateur à marge maximale, les unités qui entrent dans ce «max» comptent. La mise à l'échelle des fonctionnalités pour les algorithmes de clustering peut considérablement modifier le résultat. Imaginez quatre groupes autour de l'origine, chacun dans un quadrant différent, tous bien mis à l'échelle. Maintenant, imaginez que l'axe y soit étiré à dix fois la longueur de l'axe x. au lieu de quatre petits groupes de quadrants, vous allez obtenir la longue baguette écrasée de données coupée en quatre morceaux sur sa longueur! (Et, la partie importante est que vous préférerez peut-être l'un ou l'autre!)
Dans le résumé insatisfaisant, je suis sûr, la réponse la plus générale est que vous devez vous demander sérieusement ce qui a du sens avec les données, et modèle que vous utilisez.