La structure des données

Pour être exploitables, les données sont stockées dans des fichiers de manière structurée. Plusieurs formats de fichiers peuvent être utilisés en fonction des besoins : images, sons, ...

La problématique est alors : Comment les données sont-elles structurées pour être exploitées efficacement ?

Les caractéristiques des données structurées

Pour retrouver et traiter des données facilement, on les organise sous la forme d'un tableau appelé table de données[1].

Une collection regroupe des objets partageant les mêmes descripteurs[2].

Un objet[3] est donné par la liste des valeurs de tous ses descripteurs.

Les données sont alors dites « structurées ».

Méthode

  • En analysant le tableau ci-dessous, donner les descripteurs et une valeur d'un descripteur.

Les représentations des données

Le choix de la structure de données est essentiel pour retrouver les informations. Ainsi, selon les éléments que l'on souhaite mettre en avant, on choisira certains descripteurs plutôt que d'autres. Une même donnée peut donc être représentée dans différentes tables et de différentes manières.

Dans l'exemple ci-dessus, l'image est un objet présent dans deux collections, avec des descripteurs différents.

Méthode

  • Retrouver la date de prise de l'image.

  • Préciser la collection qui permet de trouver cette information le plus rapidement.

Les formats des données

Selon les besoins, les données peuvent être représentées sous différentes formes. Les formats CSV, JSON et XML sont très utilisés.

Le format CSV se présente sous forme de table. Les valeurs des descripteurs sont séparées, ici, par des points-virgules.

Le format JSON associe les données avec une étiquette (descripteur) sous forme d'une liste.

Le format XML utilise des balises (mot entre “<” et ”>”) pour organiser les informations en sous-éléments.

Avantages et Inconvénients :

Le CSV et le JSON sont simples à écrire et à lire, contrairement au XML qui nécessite de longues lignes de code.

Le CSV est rigide (tous les descripteurs doivent être renseignés), contrairement au XML et au JSON.

Le XML est le format le plus rapide à traiter par la machine.

Méthode

  • Quantifier le nombre objets présents dans les collections représentées sous forme CSV, XML et JSON ci-dessus.

  • Donner le nom des descripteurs.

  • Pour chaque format, détailler leur organisation.

Retrouver les métadonnées d'un fichier personnel

Les données ouvertes (Open Data) sont des données totalement publiques et libres de droit. De nombreux sites offrent l'accès à ces données. Pour être considérées OpenData, il ne doit y avoir aucun obstacle technique et aucune restriction à l'utilisation des données, même pour un usage commercial.

Sur le site opendata.paris.fr, il est par exemple possible de retrouver l'emplacement exact de toutes les stations de vélos en libre service et d'utiliser ces informations pour produire des cartes ou d'autres documents.

Méthode

  • Préciser si il est possible d'utiliser librement les informations sur les vélos en libre-service pour faire une application payante qui indique la localisation des stations.

Synthèse

  • Préciser les points communs aux différents formats de données.