Jeu de données
Un jeu de données est un ensemble de valeurs (ou données) où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l'ensemble des valeurs décrivant le même attribut et une observation contient l'ensemble des valeurs décrivant les attributs d'une unité (ou individu statistique)[1].
Un jeu de données peut avoir une structure tabulaire, par exemple un fichier CSV, une structure d'arbre, comme dans un fichier JSON ou XML, ou encore une structure de graphe, comme dans le RDF.
Lorsque les données sont tabulaires, en principe, chaque ligne correspond à une observation et chaque colonne à une variable[1].
Exemples
- Le fichier Fantoir est un jeu de données rassemblant l'ensemble des voies, des lieux-dits et des ensembles immobiliers en France.
- Le quartet d'Anscombe est un ensemble de jeux de données artificiels créés par Francis Anscombe pour montrer l'importance de la visualisation de données.
- Le Penn World Table est un jeu de données permettant des comparaisons internationales du produit intérieur brut réel.
Notes et références
- 1 2 (en) Hadley Wickham, « Tidy Data », Journal Of Statistical Software, vol. 59, no 10, , p. 1-23 (DOI 10.18637/jss.v059.i10)
Articles connexes
- Donnée (statistique)
- Donnée (informatique)
- Structure de données
- Base de données
- Format de données
- Traitement de données
- Portail de l’informatique
- Portail des probabilités et de la statistique
- Portail des bases de données