|
Fiche du CNIG n°90 - 2006
|
LA QUALITE DES DONNEES LOCALISEES
DES PRINCIPAUX ENJEUX A UNE
METHODE PRATIQUE D’EVALUATION
PREAMBULE : la fiche 47 du CNIG élaborée en 2001 sur la qualité des
données constitue un pré-requis à la lecture de celle-ci.
A l’ère de
l’avènement technologique et du fort développement de l’informatique, la
géomatique est un outil de plus en plus utilisé pour représenter ou analyser,
de façon plus ou moins modélisée, la réalité complexe du monde qui nous entoure
et ses évolutions, qu’elles soient naturelles, sociétales ou techniques. En
même temps, les informations utilisées pour représenter un phénomène complexe
proviennent de sources diverses dont il est parfois difficile de maîtriser
l’origine. En outre, l’usage de ces informations reste souvent imparfait car il
ne répond pas correctement aux besoins initiaux.
La qualité des
données localisées doit permettre de renforcer les démarches d’analyse
spatiale, d’aide à la décision, d’archivage, et de favoriser les échanges entre
partenaires et la consultation des données par le public.
Les questions
légitimes qui se posent face à ce type de démarches sont souvent du type :
·
les
données sont-elles fiables ?
·
sont-elles
précises ?
·
sont-elles
à jour ?
·
sont-elles
exhaustives ?
·
sont-elles
communicables sans risque ?
·
sont-elles
compatibles avec les autres données dont je dispose ?
·
répondent-elles
aux normes en vigueur ?
·
…
Autant de questions difficiles qui ne trouvent pas toujours de
réponse. Elles traduisent de façon générale non seulement une carence de
l’information associée aux données (appelée métadonnées), mais surtout un doute
sous-jacent sur la qualité intrinsèque des données elles-mêmes, notamment dans
le cadre de leur réutilisation. Or, rappelons ici que les métadonnées
contribuent pleinement à l’expression même de la qualité.
L’enjeu est donc bien d’aider l’ensemble de ceux qui manipulent
ou utilisent l’information géographique, au quotidien ou de façon épisodique, à
se familiariser avec les notions de qualité en matière de données localisées.
L’objectif de cette fiche est avant tout de prendre conscience
des enjeux de la qualité d’une base de données géographiques et de savoir la
contrôler. Pour mieux cerner ce sujet, seront évoqués, en premier lieu, les
principaux enjeux de la qualité des données localisées, puis en second lieu, la
notion proprement dite de qualité à travers ses divers critères. Enfin, une
méthode pratique d’évaluation de la qualité d’une base de données localisées
sera présentée en dernière partie et illustrée par un exemple.
DE
NOMBREUX ENJEUX ENTOURENT LA NOTION DE QUALITE DES DONNEES LOCALISEES
La politique partenariale prendra tout son sens
si les échanges de données localisées sont effectivement réalisés.
Pour atteindre cet objectif, il faut donc placer
la qualité au cœur des préoccupations concernant l’usage des données localisées
afin de rendre ces échanges fructueux.
Face à la quantité et à la diversité des
utilisateurs et des données localisées produites, il devient nécessaire de connaître
la provenance des informations à traiter. C’est pourquoi, des critères de
qualité deviennent indispensables aux données localisées, dès leur saisie. Ces
informations supplémentaires permettent alors d’exploiter des données de
sources différentes en toute sécurité pour les utilisateurs pour mieux en
maîtriser les limites.
Ainsi, la production ou l’utilisation de données
localisées de qualité participe pleinement à une administration rigoureuse des
données localisées au sein d’un service. Si les métadonnées n’améliorent pas à
proprement parler la qualité des données, elles permettent en revanche de
décrire cette qualité et aident l’utilisateur à choisir un jeu de données
correspondant à ses propres besoins.
Même si le coût des données a fortement baissé ces dernières
années, il représente encore le poste le plus élevé dans l’acquisition d’un
équipement de traitement de l’information. C’est la raison pour laquelle ce coût
important incite les acheteurs de données à des simplifications dans les
commandes pour n’acquérir a minima que les données dont l’utilisateur a le plus
besoin.
Mais, cet investissement milite pour une réutilisation
(mutualisation, échange, diffu-sion…) des données qui nécessitent alors d’être
constituées de façon à satisfaire, non plus un besoin pour un usage, mais
plusieurs besoins pour de multiples usages.
C’est ainsi que l’évolution actuelle de la constitution des jeux
de données s’oriente vers des aspects de production plus complexes qui
nécessitent la mise en place de normes de façon à ce que chacun y trouve sa
« matière première ».
Cette constellation de données produites noie les usagers. Cela
incite de plus en plus les producteurs à documenter les jeux de données qu’ils
constituent.
Cette volonté s’est naturellement traduite par l’énoncé d’un
certain nombre de critères définissant tant la donnée que sa qualité, comme
c’est le cas pour tous les produits de consommation courante.
En revanche, la qualité a un coût non négligeable qui nécessite
des choix et des concessions adaptées.
La manipulation de données de qualité génère une plus grande
rigueur dans l’usage des données localisées et permet ainsi de maîtriser les
analyses menées et les résultats obtenus. N’est-ce pas là l’essence même de
l’assurance de la qualité ?
La qualité en règle générale se définit comme :
« l’ensemble des propriétés et caractéristiques d’un
produit ou d’un service qui lui confère l’aptitude à satisfaire des besoins
exprimés ou implicites. » (Norme ISO 8402 :1994)
En fait, il ne s’agit pas de dire si les données localisées sont
de bonne ou de mauvaise qualité, mais simplement de vérifier que le niveau de
qualité proposé est en adéquation avec l’application envisagée et les besoins
des utilisateurs. La difficulté réside dans le compromis à trouver entre les
besoins et le « gérable ».
La fiche 47 du CNIG, publiée en 2001, définit la qualité des
données localisées en l’appréciant par sept critères, définis ci-après.
La précision sémantique identifie les
confusions faites entre objets, attributs ou relations.
L'exhaustivité précise la présence ou l’absence
d’objets cartographiques (pris en compte) dans le lot de données par rapport à
l’ensemble des éléments du terrain.
La cohérence logique décrit la
fidélité structurelle des données par rapport à la réalité, autrement dit la fiabilité
générale des informations.
La précision géométrique (altimétrique et
planimétrique) représente l’estimation de la fluctuation des écarts entre
positions (sur le terrain) nominales et les positions contenues dans le jeu de
données.
L'actualité introduit une référence temporelle
permettant de savoir si les données sont à jour.
La généalogie retrace l’histoire du jeu de données
depuis sa création (acquisition) en décrivant les utilisations qu’elle a
permises.
La qualité spécifique permet à l’utilisateur
de définir ses propres critères de qualité si les critères officiels ne
répondent pas à leurs attentes. C'est en quelque sorte un "critère
personnalisé".

Rappelons que ces sept
critères « qualité » se décomposent en deux classes : les
qualitatifs (actualité, généalogie) et les quantitatifs. Certains
d’entre eux, tels que l’actualité ou encore la qualité spécifique, ne peuvent
être classés aussi catégoriquement dans l’une ou l’autre de ces classes. Les
critères quantitatifs (précision sémantique, exhaustivité, cohérence logique,
précision géométrique) peuvent se résumer en quelques calculs, mesures et tests
à effectuer pour obtenir un résultat.
La norme ISO 19113 :2002 définit également les sous-éléments de
qualité comme les composants d’un critère qualité décrivant certains aspects de
ce critère : par exemple, le « taux d’excédent » est un
sous-élément du critère « exhaustivité ».
Pour
les utilisateurs de données localisées, tous ces critères permettent de mieux
comprendre comment évaluer la qualité et de mieux identifier les facteurs
d'amélioration ou de dégradation de la qualité.
Pour les utilisateurs qui
produisent des données localisées, ces critères permettent d’avoir une
meilleure approche des points pouvant poser problème lors de la saisie ou
d’appliquer un certain nombre de tests permettant de savoir si les données
localisées étudiées répondent au cahier des charges initial.
Enfin, chacun de ces critères permet de définir une mesure de la
qualité qui peut s’appliquer soit individuellement, soit à une catégorie
d’objet, de relation ou d’attribut.
L’ensemble des actions (mesures, évaluations…) nécessaires au
contrôle de la qualité reste une étape complexe dans la mesure où toute base de
données localisées n’est que la représentation numérique d’une abstraction du
monde et que le contrôle ne peut s’effectuer qu’à partir de cette abstraction.
Les sources d’erreurs sont nombreuses : elles peuvent être
liées à la collecte des données (matériel de mesure imprécis, mal utilisé,
données incomplètes), à la saisie (mauvais encodage des attributs, géométrie
incorrecte…), à leurs traitements (modélisation abusive, généralisation
erronée, interpolation spatiale fausse…). Ces erreurs affectent directement la
qualité de certaines données gérées dans les bases de données localisées et par
conséquent, les résultats des analyses spatiales dont la majorité sert de
référence pour l’aide à la décision.
Peu de méthodologies ont été mises au point pour le suivi et le
traitement de cette méta information. Face à ce constat, cette partie vise à
présenter une démarche de contrôle qualité de manière plus appliquée en
indiquant comment procéder et les différentes étapes à suivre pour produire et
enregistrer des données localisées de qualité. La description reste toutefois
théorique et méthodologique.
Il est impératif d’avoir recours à l’ensemble de tous les critères
de qualité, quantitatifs et qualitatifs applicables, cités précédemment,
lorsqu’un jeu de données localisées est créé.
Huit points de contrôle décrits précisément
ci-après permettent
de s’assurer qu’une base de données localisées décrit bien la qualité selon la
norme ISO 19113 :2002. Il s’agit d’une série de tests qualité à réaliser dans
les cas les plus classiques d’évaluation de la qualité.
La préoccupation de la qualité ne doit pas être l’affaire des seuls
producteurs qui commercialisent leurs données. La plupart ont déjà mis en place
des procédures de contrôle qualité. En revanche, les collectivités locales ou
les divers organismes qui produisent leurs données pour leurs propres besoins
ont parfois du mal à intégrer cette dimension dans toutes ses acceptions.
La fiche n° 47 du CNIG
conclut sur la qualité des données « La qualité des données localisées
n’est pas une référence absolue et résulte d’un arbitrage entre la réponse à un
besoin, un coût et des délais de production… Beaucoup d’utilisateurs
n’imaginent pas quels autres usages pourraient être faits des données qu’ils
génèrent. L’information géographique numérique est un domaine où chaque
utilisateur doit aussi apprendre à connaître les métiers connexes au sien, où
les données qu’il crée pourraient être réutilisées moyennant un effort
modeste ».
Par ailleurs, il faut rappeler que le diffuseur d’une donnée a
une responsabilité juridique envers les futurs utilisateurs. L’affichage de
critères qualité est un moyen de permettre au tiers une utilisation plus fiable
des données localisées.
Face à la diversité de l’information, des sources et des
utilisateurs, l’information sur la qualité reste un enjeu de taille pour
favoriser une utilisation optimale de l’information géographique numérique, à
l’aide d’outils les mieux adaptés, et pour développer les échanges.
TEST
Test 1. Utiliser les 7 critères
qualité (ensemble des 7 critères qualité, quantitatifs et qualitatifs) pour
décrire la qualité d’un jeu de données localisées.
But :
S’assurer que les critères qualité sont exhaustivement utilisés dans la
description qualité d’un jeu de données localisées.
Test 2. Valider les informations
qualité.
But :
S’assurer que la description de la qualité du jeu de données est correcte.
Test 3. Appliquer la qualité
quantitative.
But :
S’assurer que la description de la qualité quantitative est applicable.
Test 4. Appliquer la qualité non
quantitative.
But : S’assurer
que la description de la qualité non quantitative est applicable.
Test 5. Valider les critères
spécifiques.
But :
S’assurer que les critères spécifiques ne sont pas redondants par rapport aux
autres critères qualité et que l’information décrivant ce critère spécifique
est suffisante.
Test 6. Décrire correctement les
sous-éléments qualité.
But :
Vérifier que les descriptions des sous-éléments ont été correctement utilisées
dans la description de la qualité.
Test 7. Consigner l’information qualité
dans les métadonnées.
But :
Vérifier que la description qualité est bien enregistrée en tant que
métadonnée.
Test 8. Rédiger un rapport décrivant
l’information qualité quantitative.
But :
Vérifier que la qualité quantitative de la description qualité est consignée
dans un rapport d’évaluation qualité, en conformité avec les exigences de la
norme.
METHODE
1. Examiner la description de la qualité et vérifier que tous les critères
quantitatifs et qualitatifs (ainsi que les mesures et les résultats de ceux-ci)
ont bien été utilisés pour décrire
l’information de qualité.
2. Examiner
la description de la qualité et vérifier
l’utilisation effective des critères et sous-critères qualité des données.
3. Dans les spécifications des
données identifier les points relevant de la qualité quantitative et les
utiliser pour identifier les éléments et sous-éléments de qualité des données.
Cette identification sert surtout à déterminer si leur utilisation est
correcte.
4. Contrôler
que les critères qualitatifs (applicables) sont bien utilisés pour décrire la
qualité non-quantitative.
5. Examiner
tous les critères qualité spécifiques et s’assurer
qu’il n’y a pas de redondance avec des critères quantitatifs ou qualitatifs
précédemment listés. Vérifier cette redondance également au niveau des sous-éléments.
Vérifier
que le nom et la description des critères spécifiques sont bien cités dans la
description des informations qualité pour un jeu de données.
6. Vérifier
que la description des sous-éléments
qualité est correcte et exhaustive :
champ d’action, type de valeur, type d’unité, type de mesure, etc…
7.
Contrôler que l’information qualité quantitative et qualitative a bien été
enregistrée comme métadonnée en conformité avec la norme ISO 19115 :2003.
8. Contrôler
que l’information qualité quantitative est consignée dans un « rapport
d’évaluation qualité » en conformité avec les exigences de la norme ISO
19114 :2003.
Description : saisie par sous-traitance d’une base de données de divers
équipements publics d’une ville sur la géométrie du PCI vecteur utilisé comme
référentiel.
Les principales tâches du maître d’ouvrage sont les
suivantes :
Rédaction des spécifications de la base de données, des
spécifications de saisie et du cahier des charges :
-
liste
des équipements publics à saisir avec leurs attributs
-
description
des sources d’information à utiliser (informations et listes détenues par les
administrations concernées) et méthode proposée (passage terrain pour le
contrôle et la saisie définitive)
-
description
de la géométrie (position géométrique de l’équipement public à l’intérieur du
bâtiment et complément avec divers attributs comme le nombre et le rang des
étages occupés par l’équipement public…)
-
description
de la qualité attendue (géométrique et sémantique) critère par critère
= actualité : on considère que
chaque administration dispose de listes à jour de ses différents équipements.
Ces listes sont la référence
= généalogie : source des données (cadastre), date de saisie, organisme
responsable, référence aux listes utilisées…
= cohérence logique : fichiers lisibles, relations entre objets
respectées, topologie représentée et respectée, valeurs appropriées aux limites
prévues…
= précision géométrique : les équipements publics occupent une partie ou
la totalité des bâtiments présents sur le cadastre. Les polygones décrivant ces
équipements partagent donc la totalité ou une partie de la géométrie du
cadastre. Des attributs viennent compléter ce positionnement (étages…). Ces
attributs sont considérés comme un sous-élément de la précision géométrique
= exhaustivité : contrôle des équipements saisis avec les listes utilisées
= précision sémantique : identifier les confusions entre objets ou entre
attributs
= qualité spécifique : déterminer le nombre de fautes d’orthographe
dans les toponymes, prévoir la taille de l’échantillon, définir le taux de
rejet…
Réception de la base et contrôles qualité
- Test 1 : s’assurer que les 7 critères ont bien été prévus lors de
la rédaction du document de description de la qualité attendue. Ce test doit
être fait avant la réalisation des travaux.
- Test 2 : s’assurer que la totalité des critères sont fidèlement
mesurés et renseignés en tenant compte des formats, des valeurs limites et des
taux de rejet éventuels.
- Test 3 : contrôler les 4 critères quantitatifs par rapport
au cahier des charges : cohérence logique, précision géométrique, exhaustivité,
précision sémantique. On peut prévoir à ce moment un passage sur le terrain
pour contrôler, compter, mesurer sur des échantillons prévus initialement.
- Test 4 : contrôler les 2 critères qualitatifs :
actualité et généalogie. Dans la plupart des cas, ces contrôles concernent les
données attributaires.
- Test 5 : contrôler la qualité spécifique : dans notre cas,
il s’agit de vérifier l’orthographe d’un échantillon de toponymes.
- Test 6 : contrôler les sous-éléments des critères qualités. Dans
notre exemple, on vérifiera les attributs liés à la précision géométrique
décrivant le positionnement des équipements publics au sein des bâtiments du
cadastre.
- Test 7 : consigner l’information qualité qui vient d’être mesurée
dans les métadonnées à l’aide du logiciel REPORTS par exemple.
- Test 8 : contrôler que l’information qualité
quantitative est consignée dans un rapport d’évaluation qualité.
|
…/information/exemple/sensibilisation/réflexion/méthodologie/état
des lieux/point de vue/technique/… |