Commençons par quelques définitions !
Qu'est ce qu'une donnée ? Qu'est-ce qu'une donnée personnelle ?
Une donnée est une valeur ou une information décrivant un objet, une personne, un événement, etc.
Une donnée personnelle est toute information se rapportant à une personne physique identifiée ou identifiable.
Il est important de noter qu'une personne physique peut être identifiée :
Avez-vous d'autres exemples de données personnelles qui permettent d'identifier indirectement une personne physique ?
Notez que l'identification d'une personne physique peut être réalisée :
Le format CSV est très courant sur le Web. Voici ce que nous dit Wikipédia sur le format CSV :
Comma-separated values, connu sous le sigle CSV, est un format informatique ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules.
Un fichier CSV est un fichier texte, par opposition aux formats dits « binaires ». Chaque ligne du texte correspond à une ligne du tableau et les virgules correspondent aux séparations entre les colonnes. Les portions de texte séparées par une virgule correspondent ainsi aux contenus des cellules du tableau.
Voici un exemple du contenu d'un fichier CSV :
nom,prenom,date_naissance
Johnson,Katherine,26/08/1918
Lovelace,Ada,10/12/1815
Hamilton,Margaret,17/08/1936
Je pense qu'il est évident pour vous que nous avons ici 3 femmes :
Dans ce fichier :
nom
, prenom
et date_naissance
, sont appelés des descripteurs. Ces descripteurs permettent de décrire les données en définissant leur contenu.Johnson
, Lovelace
et Hamilton
sont les valeurs du descripteur nom
.✍️ Question 1 : Donnez les différentes valeurs du descripteur date_naissance
du fichier précédent.
✍️ Question 2 : Choisissez l'une des trois personnalités de ce fichier puis :
La virgule est un standard pour les données anglo-saxonnes, mais pas pour les données aux normes françaises. En effet, en français, la virgule est le séparateur des chiffres décimaux. Il serait impossible de différencier les virgules des décimaux et les virgules de séparation des informations. C’est pourquoi on utilise souvent, en France, un autre séparateur : le point-virgule (;). Dans certains cas cela peut engendrer quelques problèmes, vous devrez donc rester vigilants sur le type de séparateur utilisé.
Comme un fichier CSV est un fichier texte, on peut le visualiser avec n'importe quel éditeur de texte (capture d'écran ci-dessous).
Fichier CSV ouvert avec un éditeur de texte
Mais comme un fichier CSV représente des données tabulaires, on peut représenter ces données dans un tableau qui s'appelle une table de données :
nom | prenom | date_naissance |
---|---|---|
Johnson | Katherine | 26/08/1918 |
Lovelace | Ada | 10/12/1815 |
Hamilton | Margaret | 17/08/1936 |
Et à ce titre, on peut l'ouvrir avec n'importe quel tableur (capture d'écran ci-dessous) qui range les données du fichier CSV dans un tableau avec des lignes et des colonnes :
Fichier CSV ouvert avec le tableur Calc de LibreOffice
💻 Question 3 : Téléchargez ce fichier CSV en cliquant sur le lien suivant : personnalites.csv. Puis ouvrez-le de deux manières :
💻 Question 4 : Fermer le tableur puis, dans l'éditeur de texte, ajoutez une ligne (un objet) pour la graphiste Susan Kare et enregistrez les modifications. Vérifiez en ouvrant le fichier avec le tableur, que la ligne a bien été ajoutée dans le tableau.
Source : https://data.angers.fr/pages/home/
La ville d'Angers met à disposition des citoyens les données en temps réel sur les disponibilités dans les parkings angevins (il y a plein d'autres jeux de données).
Ces données sont accessibles via cette page https://data.angers.fr/explore/dataset/parking-angers/information/.
💻 Question 1 : Télécharger ces données au format CSV en allant dans l'onglet Export de cette page.
✍️ Question 2 : Ouvrez le fichier téléchargé avec un éditeur de texte et répondez aux questions suivantes :
N'hésitez pas à ouvrir également ce fichier avec un tableur en veillant à sélectionner le bon caractère de séparation !
Dans cette activité, on considère un objet particulier : une vidéo YouTube.
Les vidéos YouTube et toutes leurs caractéristiques sont enregistrées de manière structurée sur les serveurs de YouTube (ce n'est pas dans des fichiers CSV mais dans ce qu'on appelle des bases de données, mais le principe est similaire). C'est ce qui permet de rechercher des vidéos à partir de mots clés et d'afficher les résultats comme sur la capture d'écran ci-dessous.
Capture d'écran des premiers résultats YouTube pour le mot clé chatgpt.
✍️ Question 1 : Vous devez constater que les données affichées en résultat ont la même forme quelle que soit la vidéo. Identifiez tous les descripteurs des vidéos YouTube qui apparaissent à l'écran.
✍️ Question 2 : Construisez une table de données avec les descripteurs sur la première ligne et leurs valeurs pour l'une des 4 vidéos (celle de votre choix).
Dans cet exercice on considère la table de données suivante :
nom | prénom | classe |
---|---|---|
Dubois | Gabriel | 2C |
Marchand | Élodie | 1G1 |
Pour mémoriser cette table de manière permanente dans un ordinateur, il faut la stocker dans un fichier. L'activité propose de travailler sur deux formats très utilisés : le format CSV (abordé plus haut) et le format JSON (JavaScript Object Notation). Voici la table écrite dans deux fichiers au format CSV puis au format JSON :
Données au format CSV
nom,prénom,classe
Dubois,Gabriel,2C
Marchand,Élodie,1G1
Données au format JSON
[
{
"nom": "Dubois",
"prénom": "Gabriel",
"classe": "2C"
},
{
"nom": "Marchand",
"prénom": "Élodie",
"classe": "1G1"
}
]
Un fichier JSON est aussi un format de données textuelles. Ce format permet de représenter des données plus complexes que des tables (et donc plus complexes qu'avec un fichier CSV). C'est un format très utilisé sur le Web pour récupérer et échanger des données
✍️ Question 1 : Quels sont les objets de cette table ? Quels sont les descripteurs ?
✍️ Question 2 : Dans le format CSV, quel est le caractère permettant de séparer les données de chaque colonne ?
✍️ Question 3 : Écrivez le contenu des fichiers CSV et JSON correspondant à la table ci-dessous :
Date | Equipe 1 | Equipe 2 | Score |
---|---|---|---|
10/02/2022 | Angers | Paris | 7-0 |
02/03/2020 | Nantes | Angers | 2-8 |
✍️ Question 4 : Construisez la table correspondant au fichier CSV suivant :
nom_commune,code_commune,pop2007,pop2012
BRIOLLAY,49048,2565,2751
VILLEVEQUE,49377,2738,2858
ECOUFLANT,49129,3747,3775
Complétez les pointillés par les mots suivants :
donnée, structurées, CSV, collection, table, descripteurs, ligne, colonne
Références :
Les enseignants du lycée Emmanuel Mounier à Angers
Cette page en version PDF : T4_S1_Structurer_des_donnees.pdf
Voir en ligne : info-mounier.fr/snt/donnees/donnees_structurees