Question:
Choix de diplômes d'études supérieures pour la science des données?
user60305
2014-11-12 04:18:32 UTC
view on stackexchange narkive permalink

Je termine actuellement un B.S. en mathématiques et aimerait suivre des études supérieures (une maîtrise pour les débutants, avec la possibilité d'un doctorat ultérieur) en vue d'entrer dans le domaine de la science des données. Je suis également particulièrement intéressé par l'apprentissage automatique.

Quels sont les choix de diplômes d'études supérieures qui me mèneraient là où je veux aller?

Y a-t-il un consensus quant à savoir si un diplômé un diplôme en mathématiques appliquées, en statistique ou en informatique me mettrait dans une meilleure position pour entrer dans le domaine de la science des données?

Merci à tous pour l'aide, c'est un grand choix pour moi et toute entrée est très apprécié. En général, je pose mes questions sur Mathematics Stack Exchange, mais je pensais que poser ici me donnerait une perspective plus large et mieux arrondie.

Vous voudrez peut-être essayer l'échange de pile de science des données pour ce Q.
@JeremyMiles: C'est une excellente idée, je viens de me joindre là-haut donc je vais essayer.
Cinq réponses:
#1
+11
Frank Harrell
2014-11-12 05:29:47 UTC
view on stackexchange narkive permalink

Si vous obtenez une maîtrise en statistiques appliquées (suivie peut-être d'un doctorat) et une très bonne expérience en informatique, vous ne vous tromperez pas. Une maîtrise ou un doctorat en biostatistique mène à un excellent pipeline d'emplois, et si vous finissez par n'aimer pas la recherche biomédicale ou pharmaceutique, vous serez toujours admissible à un domaine non médical lié aux statistiques appliquées.

Merci pour ce conseil.Depuis votre publication, je me suis davantage intéressé aux départements de biostatistique et l'un des programmes particulièrement attrayants est le programme de biostatistique de l'Université de l'Indiana à l'IUPUI (car il peut être complété à temps partiel et je pourrais acquérir une expérience de travail tout en participant).Faites de nombreux doctorats en statistique / biostatistique.les programmes offrent la possibilité d'assister à temps partiel ou est-ce une rareté relative?
D'après ce que je sais, c'est rare.
#2
+11
StasK
2014-11-12 10:41:25 UTC
view on stackexchange narkive permalink

La réalité effrayante est que les statisticiens ne sont pas reconnus comme scientifiques des données. Donc, bien qu'obtenir un diplôme en statistiques vous équipera certainement bien pour la science des données, vous n'obtiendrez peut-être pas autant d'opportunités que vous le pensez le nom de la majeure.

Je n'ai pas la boîte en conserve des réponses pour vous (et personne ne le fait ... sauf Hal Varian, et vous voudrez peut-être lui parler directement - si vous ne pouvez pas rechercher ses coordonnées sur Google, vous ne devriez pas envisager une carrière dans la science des données :)). Mes deux centimes à considérer seraient:

  1. Un programme en informatique, avec une mineure en statistiques. Un diplôme en informatique en soi ne vous équipera pas bien en science des données, à mon avis, car ce que les statisticiens voient dans la "science des données sans statistiques", c'est que les scientifiques des données finissent par réinventer les statistiques. Par conséquent, vous ferez mieux de l’apprendre correctement pour commencer.
  2. Un programme de master scientifique professionnel en analytique ( Rutgers, NC State - pas que Je les approuve, je vous donne juste des exemples). Les programmes de master en sciences professionnelles combinent environ 60% des heures de crédit du programme de sciences avec environ 40% du programme de gestion. J'aurais aimé avoir la possibilité de prendre ce diplôme lorsque j'étais à l'école supérieure. Bien sûr, cela suppose que vous pouvez vous le permettre - vous pouvez accéder à la plupart des doctorats. programmes et obtenez un soutien financier complet, mais vous devrez payer vous-même une maîtrise.

Parcourez Academia.SE pour plus d'informations sur la manière de structurer votre formation postuniversitaire et le type de diplôme que vous souhaitez ou non. Fait intéressant, Data Science.SE est actuellement (novembre 2014) en version bêta, et il ne s’agit pas d’une bêta saine et heureuse.

Pourquoi aucune mention d'économie, @stask?
Le PO a posé des questions sur [une sorte de] * science *.L'économie n'est pas une * science * ... bien que ce soit définitivement une profession bien rémunérée :)
Il me semble trop dur de dire que «l'économie n'est pas une science».Je conviens certainement que certaines parties de l’économie sont moins scientifiques que d’autres.
+1 pour vos deux points.Beaucoup de mes collègues sont passés par le programme NC State.J'ajouterais qu'un M.S.dans un programme lourd en apprentissage automatique serait également une bonne option - en supposant que l'OP soit raisonnablement compétent en programmation, ce dont il aura besoin de toute façon pour être un "Data Scientist".Je pense que le parti pris contre les statisticiens est le stéréotype selon lequel ils sont plus théoriques ou qu'ils utilisent Stata, etc., pour travailler sur des problèmes à plus petite échelle.En termes d'économie, je dois dire que mes blogueurs de statistiques préférés sont des économistes.
Wayne, c'est drôle de dire que les statisticiens utilisent Stata.R est mieux adapté pour travailler avec des données de structures étranges, et SAS peut lire et écrire d'énormes ensembles de données sans aucune modification de la syntaxe, mais Stata n'est pas un outil pire que ces deux.Je suis partial, cependant, même si je pensais que c'était évident dans mes messages.gung, en termes de structure de Kuhn des révolutions scientifiques, étant donné la quantité de débats en économie, il ne s'est pas tout à fait formé en tant que science.
@Wayne: aujourd'hui et historiquement, SAS et R / S-PLUS ont été beaucoup plus populaires parmi les statisticiens que Stata (je suis moi-même un utilisateur de Stata).Le langage S dont sont issus R et S-PLUS, était presque inconnu en dehors des cercles statistiques, mais est devenu extrêmement populaire de nos jours (R).Malheureusement, il y a une énorme distorsion de ce que font les statisticiens, sans parler des outils qu'ils utilisent.
@StasK: J'aime beaucoup Stata - je l'ai acheté l'année dernière - et je ne voulais pas le critiquer ni ses utilisateurs.C'est plus populaire auprès des économistes que des statisticiens, je suppose.Le point que j'essayais de faire valoir est que le stéréotype qui exclut le «statisticien» de la «science des données» est une perception selon laquelle la science des données concerne le big data (Hadoop, énorme SQL, etc.) qui est souvent de forme libre (text mining, etc.) et nécessite des équipes de Data Scientists, tandis que les statisticiens travaillent de manière indépendante sur des expériences, etc. C'est un stéréotype, bien sûr.
La présentation de Terry Speed sur le Big Data permet de faire la lumière sur les nombreuses distorsions et stéréotypes: http://vimeo.com/91502942
#3
+8
Aaron Zeng
2014-11-12 09:16:07 UTC
view on stackexchange narkive permalink

EDIT: Essayez simplement d'ajouter quelques mots.

En tant que doctorant en biostatistique, je me sens bien avec ce que @ Frank-Harrell a dit. Et c'est tout à fait correct !!! Les étudiants de notre département ont d'excellents stages après l'obtention de leur diplôme.

D'un autre côté, @StasK a cité l'article " Ne sommes-nous pas de la science des données?", mais l'a intitulé " les statisticiens ne sont pas reconnus comme scientifiques des données ". Cela me trompe quelque peu. Les statisticiens pourraient ne pas être qualifiés de scientifiques des données. Mais qui d'autre peut le revendiquer formellement? Quoi qu'il en soit, ce que l'article dit, du moins pour moi, c'est que les statistiques ont le grand potentiel de contribuer à la science des données. Le principal problème, s'il y en a, qui empêche les statistiques de promouvoir la science des données est que les gens de Statistics ne sont pas bien formés pour le calcul à grande échelle et la programmation efficace. Cité à partir de cet article est le suivant.

Et aux statistiques. Les statistiques ont un énorme potentiel pour contribuer à la science des données. Il existe des problèmes de recherche ouverts exigeant que les méthodes statistiques classiques d'échantillonnage, de conception et d'inférence causale soient «mises à l'échelle» pour être réalisables avec des ensembles de données massifs. Rares sont les informaticiens et les autres qui dominent le paysage de la science des données qui connaissent bien ces concepts, et beaucoup adoptent une vision «algorithmique» de l'analyse des données. La science des données a besoin d'une réflexion statistique et de nouveaux cadres fondamentaux - par exemple, quelle est la «population» face au Big Data généré par Google?

En fait, de nombreuses entreprises commencent à collecter des données de manière prospective pour des tests internes et la validation, et la puissance des principes de conception est peu appréciée. Les statisticiens pourraient propulser des avancées majeures grâce au développement d'une «conception expérimentale pour le 21e siècle»!

On peut sans doute dire que l'informatique est en meilleure position mais qu'elle n'a tout simplement pas la réflexion statistique. Mais pour moi, je considère les deux composants principaux comme le «cerveau» et les «mains»! Si la conception de l'expérience est défectueuse au tout début, ou si l'inférence est biaisée à la toute fin, nous nous retrouverons avec une histoire totalement différente sur la conclusion et la stratégie commerciale.

Pour simplifier les choses tout ce que je souhaite transmettre ici, les praticiens de la science des données ont vraiment besoin d'une grande réflexion statistique et de la programmation.

FIN EDIT:

Pour décider du degré que vous allez poursuivre, vous devez obtenir pour savoir quels ensembles de compétences vous qualifient pour travailler dans le domaine de la science des données. Sur la base de ce que je sais, si vous souhaitez entrer dans le domaine de la science des données, les compétences "hard" que vous souhaiteriez équiper sont essentiellement de deux ordres: la forte capacité analytique et un bon calcul et programmation compétences. Vous pouvez accéder à Quora et effectuer des recherches telles que "science des données", "scientifique des données", etc., pour avoir une idée de ce à quoi ressemble le domaine et de ce dont vous avez besoin pour vous y préparer. Voici deux questions de Quora que vous voudrez peut-être répondre:

  1. Qu'est-ce que la science des données?
  2. Comment devenir un data scientist?

Quelques questions comme celle-là, vous comprenez mon point.

(Les compétences générales , comme l'oral et Les compétences en communication écrite et la capacité à travailler en équipe sont également très importantes. Et dans certaines circonstances, elles sont encore plus importantes que vos compétences analytiques dans une certaine mesure. Mais la discussion sur les compétences générales est certainement hors sujet pour vos questions.)

Revenons maintenant à vos questions.

Quels sont les choix de diplômes d'études supérieures qui m'amèneraient là où je veux aller?

Une fois que vous avez une vision claire et une réflexion approfondie sur ce que vous devez apprendre, vous devriez être en mesure d'y répondre par vous-même. Ma suggestion serait l'informatique, les mathématiques appliquées ou les statistiques, la biostatistique, la physique, l'ingénierie ou tout autre diplôme qui implique fortement l'analyse et le calcul. Essentiellement, un diplôme interdisciplinaire qui vous aidera à former à la fois l'analyse de données et la programmation vous rapportera certainement une excellente position pour travailler dans le domaine de la science des données.

Y a-t-il un consensus quant à savoir si un diplôme d'études supérieures en application les mathématiques ou les statistiques me mettraient dans une meilleure position pour entrer dans le domaine de la science des données?

Je ne sais pas s'il existe un tel consensus formellement reconnu par les chercheurs universitaires ou les industriels, mais je peut vous donner des nouvelles / rapports de sites Web qui montrent comment les statistiques auront un grand rôle à jouer à mesure que l '«ère du Big Data» évolue. Je pense que ces articles vous donneront au moins l'assurance que les statistiques devraient être un bon choix.

  1. Pour les diplômés d'aujourd'hui, juste un mot: statistiques
  2. Comment la science statistique peut faire progresser les projets de recherche sur le Big Data?
  3. Découverte avec des données: tirer parti des statistiques avec l'informatique pour transformer la science et la société
  4. We Are Data Science
  5. [The Era of Big Data] Articles incontournables sur le Big Data

Le dernier est tiré de mon blog, dans lequel j'ai rassemblé des articles importants de médias et de sites Web célèbres, comme NYTimes, Forbes, McKinsey, Harvard Business Review, etc. Vous pouvez en trouver qui décrivent l'avenir du domaine de la science des données, et les compétences nécessaires dans ce domaine. Par exemple, voici la citation de NYTimes, les mots de Hal Varian.

«Je n'arrête pas de dire que le travail sexy dans les 10 prochaines années sera celui des statisticiens», a déclaré Hal Varian, économiste en chef chez Google. "Et je ne plaisante pas."

Ce que la plupart des articles élaborent, c'est qu'en tant que discipline qui étudie les données - «la science des données», le domaine des statistiques est en plein essor à ce stade historique. Donc s'il y a consensus, ces articles en seraient les signes.

Enfin, comme il pourrait vous sembler que je vous convainque d'obtenir un diplôme d'études supérieures en statistique ou en biostatistique, je ne ont cette intention, même si ce sont d'excellents choix comme je l'ai indiqué précédemment. Tous les diplômes qui correspondent à vos intérêts (comme l'apprentissage automatique en informatique) sont bons à prendre en compte, tant que vous savez que vous préparez vos compétences analytiques et informatiques. Vous pouvez même acquérir ces compétences par vous-même grâce aux cours Open sur Coursera.

(+1) Les diplômés en physique ou en ingénierie ne devraient certainement pas être découragés de se lancer dans la science des données, mais je ne suis pas sûr que je compterais la lecture de ces sujets parmi les voies les plus directes, pour quelqu'un qui * entreprend * de se lanceril.
+1 Notez que la déclaration "Le principal problème, s'il y en a, qui empêche les statistiques de promouvoir la science des données est que les gens de Statistics ne sont pas bien formés pour le calcul à grande échelle et la programmation efficace" fait l'hypothèse implicite que la science des données = big data.Je dirais que de nombreux problèmes (la plupart?) Sont soit incapables de générer des données par milliard, soit l'augmentation de la taille de l'échantillon - qui est trop souvent confondue pour la population - contribue peu à résoudre un problème et peut en fait entraver la capacité de l'analyste à détecterun signal.
Bons points, @ThomasSpeidel.Et en fait, de nombreux problèmes scientifiques ou industriels sont de petite taille, comme les expériences dans les sociétés pharmaceutiques, et bien d'autres qui ont besoin de personnes comme sujets.Dans ces situations, les techniques de «big data» sont certainement moins applicables.L'essor du Big Data est vraiment le résultat de la révolution de l'Internet mobile et des médias sociaux sur Internet.Cela dit, la plupart des applications Big Data sont liées au domaine informatique.C'est pourquoi les spécialistes de l'informatique dominent désormais l'ère dite du big data.
#4
+4
Randy Bartlett
2014-11-15 22:57:19 UTC
view on stackexchange narkive permalink

Si vous avez déjà un BS en mathématiques et que vous souhaitez analyser des données sur le terrain, un MS en statistique fera bien plus qu'un deuxième diplôme en mathématiques. Seuls les statistiques, biostat et OR (pas si sûr) enseignent les hypothèses statistiques sous-jacentes aux problèmes statistiques. Les statistiques enseignent déjà plus de mathématiques que ce dont vous avez besoin pour analyser des données, par exemple, la théorie des mesures et la théorie des grands échantillons.

De plus, le Statistical Machine Learning est résolument dans le domaine des statistiques. Ce sont les outils de ML que nous utilisons pour analyser les données. Les autres outils sont pour la gestion des données.

#5
-1
Nisha Dhiman
2019-07-15 14:23:11 UTC
view on stackexchange narkive permalink

Optez pour PG en science des données.Ceci est disponible principalement dans les universités américaines et en Europe.Et je sais qu'ils deviennent vraiment chers.Alors, pourquoi ne pas opter pour un diplôme post-diplôme en science des données et en ingénierie en ligne, qui comprendra l'apprentissage automatique.J'en ai un en tête: Great Learning-PG in Data Science and Engineering



Ce Q&R a été automatiquement traduit de la langue anglaise.Le contenu original est disponible sur stackexchange, que nous remercions pour la licence cc by-sa 3.0 sous laquelle il est distribué.
Loading...