Des données ouvertes mieux adaptées à une société digitale
La Confédération vise, par la mise en œuvre de la stratégie Open Government Data 2019-2023, une meilleure efficience, transparence et promotion de l’innovation grâce à la distribution simple et gratuite d’un grand nombre de données. L’OFEN s’associe aux objectifs de la stratégie et publie depuis plusieurs années des données ouvertes. Les données pour les centrales hydroélectriques ou encore les bornes de recharges pour voitures électriques sont par exemple mises à disposition.
Un des principes de base des publications Open Data veut que les données soient publiées dans des formats «ouverts», c’est-à-dire des formats fichier libres et sur lesquels aucune entreprise n’a le contrôle. Parmi les formats ouverts les plus répandus, on trouve le format «comma separated values» (.csv) très généraliste et adapté à une multitude de données différentes. Ce format n’est en fait rien d’autre qu’un fichier texte mis en colonnes par des caractères séparateurs (souvent des virgules). Ce format possède une autre qualité fondamentale pour les Open Data: il est lisible et réutilisable par une machine, et cela potentiellement sans intervention humaine directe pour l’interprétation des contenus. Cette caractéristique est fondamentale pour le web et la société digitalisée qui se construit sous nos yeux.
Pourtant, une utilisation correcte des données est seulement possible si celles-ci sont interprétées de manière juste. Et pour une utilisation automatisée, se pose la question de la qualité formelle de la publication.
En d’autres mots: est-ce que les colonnes que mon logiciel s’attend à trouver sont bien là? Est-ce que les colonnes avec des valeurs numériques n’ont effectivement que des chiffres dedans ou une lettre s’est glissée par erreur dans une colonne numérique, ce qui va empêcher mon programme de fonctionner correctement?
Et surtout: quelle est la signification des informations dans chaque colonne?
Ce type de question et bien d’autres nécessitent des réponses pour que les données puissent être interprétées et utilisées correctement. Ces réponses sont décrites dans ce qu’on appelle les métadonnées (donc des données sur les données).
Pour un nombre grandissant de publications, l’OFEN publie un deuxième fichier (appelé «datapackage») qui accompagne les données proprement dites. Ce fichier contient toutes les métadonnées et informations nécessaires à vérifier la qualité des données d’origine et leur interprétation correcte, et cela non seulement pour un lecteur humain, mais une machine aussi.
À titre d’exemple, le datapackage du jeu de données «État de la politique énergétique dans les cantons» nous informe que la colonne «fr_1803» nous donne le nombre de grands consommateurs d’énergie. Il nous informe en plus que l’attribut est de type «texte». Je sais donc que mon programme doit être en mesure de traiter correctement ces valeurs contenant autre chose que des chiffres.
La présence d’un tel fichier facilite l’utilisation et l’interprétation correcte des données. Il permet aussi la configuration de processus automatisés pour des tests de qualité et le traitement automatique des données, ce qui rend les données ouvertes de l’OFEN plus adaptées à une utilisation ample et sûre dans une société digitale.
Toutes les données de l’OFEN sur opendata.swiss
Ambrogio Foletti, service géodonnées de l’OFEN
Dein Kommentar
An Diskussion beteiligen?Hinterlassen Sie uns Ihren Kommentar!