Science des données
En termes généraux, la science de données est l'extraction de connaissance de données[1],[2]. Elle emploie des techniques et des théories dessinées (tirées) de beaucoup de champs (domaines) dans les larges zones (domaines) de mathématiques, la statistique, la théorie de l'information et la technologie de l'information, y compris le traitement de signal, des modèles de probabilité, l'apprentissage automatique, l'apprentissage statistique, la programmation informatique, l'ingénierie de données, la reconnaissance de formes et l'apprentissage, la visualisation, l'analytique prophétique, la modélisation d'incertitude, le stockage de données, la compression de données et le calcul à haute performance. Les méthodes qui s'adaptent aux données de masse sont particulièrement intéressantes dans la science de données, bien que la discipline ne soit généralement pas considérée comme limitée à ces données.
La science des données (en anglais data science[3]) est une nouvelle discipline qui s'appuie sur des outils mathématiques, de statistiques, d'informatique (cette science est principalement une « science des données numériques »[4] et de visualisation des données. Elle est en plein développement, dans le monde universitaire ainsi que dans le secteur privé et le secteur public. Moore en 1991 a défini la statistique comme la science des données[5] (définition reprise par d'autres dont par exemple James T. McClave et al. en 1997[6]) et U. Beck en 2001[7] oppose la science des données à la science de l'expérience, voyant une dissociation croissante entre ces deux types de science, que tendrait selon lui à encourager une société de la gestion du risque au sein d'une « civilisation du danger »[8].
Objectifs
Le premier objectif du « data scientist » est de produire des méthodes (automatisées, tant que possible) de tri et analyse de données massives et de sources plus ou moins complexes ou déconnectées de données, afin d'en extraire des informations utiles ou potentiellement utiles.
Pour cela, le "scientifique des données" s'appuie sur la fouille de données, les statistiques, le traitement du signal, diverses méthodes de référencement, apprentissage automatique et la visualisation de données. Il s'intéresse donc à la classification, au nettoyage, à l'exploration et à l'analyse et à la protection de bases de données plus ou moins interopérables.
- Au sein du monde de la Recherche et des universités, cette science permet simplement de mieux produire, valoriser et mémoriser la connaissance (savoir et savoir-faire). A titre d'exemple, un projet « Paris-Saclay Center for Data Science » est portée par l'Université Paris-Saclay[9].
- Au sein des entreprises privées ou nationales, le data scientist rend l'information plus facile à exploiter, protéger et à valoriser.
- Au sein des collectivités territoriales et des agences gouvernementales ou de structures intergouvernementales (GIEC par exemple), il s'agit de permettre une production et une utilisation plus efficiente des données et statistiques, au service d'outils de retour d'expérience (REX), d'outils d'aide à la décision, d'évaluation et de production de bonnes pratiques en matière de gouvernance et de politiques publiques. Ainsi les États-Unis ont-ils en 2009 créés un poste de Chief technology officer (occupé par DJ Patil, une jeune mathématicien de 37 ans).
En réponse à la complexité croissante de la science des données, des partenariats s'établissent entre collectivités, universités, grandes écoles et secteur privé, ce travail étant pris en charge en interne par un ou sous-traité par une entreprise spécialisée.
Histoire
Le terme semble avoir été inventé par William Cleveland dans un article programmatique paru en 2001 intitulé « Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics ».
Cette discipline est issue de l'apparition et du développement des bases de données et de l'Internet et répond aussi à la complexité croissante et au volume en croissance exponentielle du nombre de données numériques disponibles dans le monde (infobésité).
Elle a reçu beaucoup d'attention dernièrement grâce à l'intérêt grandissant pour le "Big Data". Cependant la data science ne se limite pas à l'étude de bases de données pouvant être qualifiées de "Big Data".
Par ailleurs l'essor de techniques d'apprentissage automatique (en anglais machine learning) et d'intelligence artificielle ont également participé à la croissance de cette discipline et à son ouverture vers de nouveaux champs (passant par exemple de l'analyse statistique pure de données fortement structurées à l'analyse de données semi-structurées (XML par exemple) pour notamment mettre « en correspondance des bases de données et de données textuelles »[10].
Formation : Cette science nouvelle a naturellement généré « l'émergence d'une nouvelle filière de formation : « data scientists » »[11].
En France
Cette science s'inscrit dans les efforts d'accompagnement du numérique, en lien depuis qu'elle existe avec la mission Etalab (dont le directeur, Henri Verdier, est aussi « administrateur général des données de l’État », assisté par des data-scientists recrutés pour « accélérer la possibilité de politiques publiques « augmentées » par les données et leur analyse »Un data scientist à Washington pour enrichir l’action du gouvernement
Domaines d'utilisation
Parmi les plus grands utilisateurs de la science des données figurent (par ordre alphabétique)
- aéronautique& automobile[11]
- Agriculture[11]
- Assurance[11]
- Banque & finance, dont "Trading financier"[11]
- Distribution[11]
- Econométrie, économie
- Énergie[11]
- industrie manufacturière [11]
- Médias (ex : journalisme de données) & loisirs[11]
- Météorologie
- Moteurs de recherche
- Services (industrie des services)[11]
- Santé publique[11] (ex : épidémiologie, toxicologie, écotoxicologie...)
- TIC, télécommunications[11]
- Tourisme[11]
- Transport [11]
- Urbanisme, smart cities, smartgrids[11]
- Publicité ; e-commerce[11]
- Environnement[11]/Climat
Conditions
Les travaux liés aux sciences des données nécessitent une expertise largement pluridisciplinaire dans les domaines scientifiques, méthodologiques, des outils logiciels et des compétences en matière de droit des données, et de maitrise des aspects éthiques et sociaux, confidentialité, anonymisation, sécurité liés à certaines données (données personnelles et de santé notamment).
Notes et références
- ↑ (en) Vasant Dhar, « Data Science and Prediction », Communications of the ACM, no 12, , p. 64-73 (ISSN 10.1145/2500499, lire en ligne)
- ↑ (en) « The key word in "Data Science" is not Data, it is Science », sur simplystats, (consulté le 25 mars 2015)
- ↑ Davenport et DJ Patil « Data Scientist: The Sexiest Job of the 21st Century », Harvard Business Review, 2012
- ↑ Gossiaux J.F (1998) L'ethnologie au bout du compte (No. 30, pp. 153-163). Ministère de la culture/Maison des sciences de l’homme.
- ↑ Moore, D. S. (1991), Teaching statistics as a respectable subject. In Gordon, F. and S. Gordon (eds.), Statistics for the twenty-first century, 14-25, Mathematical Association of America.
- ↑ McClave, James T. et co. (1997) Statistics , Prentice Hall, New Jersey
- ↑ Beck U (2001) La politique dans la société du risque (Vol. 17, No. 1, pp. 376-392). La Découverte.
- ↑ Beck, U. (2001). La politique dans la société du risque (Vol. 17, No. 1, pp. 376-392). La Découverte.
- ↑ Kégl B (2014) La science des données pour les données de la science. In 9th Journées Informatique de l'IN2P3-IRFU.(résumé)
- ↑ Stage Recherche-M2 : Mise en correspondance debases de données etdedonnées textuelles, encadré par Mathieu Roche (TETIS-Cirad & LIRMM, Montpellier) et Sophie Fortuno (TETIS-Cirad, Montpellier)
- 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Abiteboul, S., Bancilhon, F., Bourdoncle, F., Clemencon, S., De La Higuera, C., Saporta, G., & Soulié, F. F. (2014). L'émergence d'une nouvelle filière de formation:«d ata scientist s» (Doctoral dissertation, INRIA Saclay)
Voir aussi
Articles connexes
- Apprentissage automatique
- Visualisation de données
- Big data
- Intelligence artificielle
- Interopérabilité
- Ontologie (informatique)
- métadonnée
- Kaggle
Bibliographie
- (en) William Cleveland, « Data Science : An Action Plan for Expanding the Technical Areas of the Field of Statistics », International Statistical Review / Revue internationale de statistique, vol. 69,
- Serge Abiteboul, Sciences des données : De la logique du premier ordre à la Toile, Fayard, coll. « Collège de France », (lire en ligne)
- (en) Rachel Schutt et Cathy O'Neil, Doing Data Science : Straight Talk from the Frontline, O'Reilly Media, , 406 p. (ISBN 978-1-4493-5865-5)
Liens externes
- Journal of Data Science
- CODATA Data Science Journal
- Portail des mathématiques
- Portail des probabilités et de la statistique
- Portail de l’informatique