Fiche du CNIG n°90 - 2006    

 

 

LA QUALITE DES DONNEES LOCALISEES 

DES PRINCIPAUX ENJEUX A UNE METHODE PRATIQUE D’EVALUATION

 

 

 

PREAMBULE : la fiche 47 du CNIG élaborée en 2001 sur la qualité des données constitue un pré-requis à la lecture de celle-ci.

 

 

A l’ère de l’avènement technologique et du fort développement de l’informatique, la géomatique est un outil de plus en plus utilisé pour représenter ou analyser, de façon plus ou moins modélisée, la réalité complexe du monde qui nous entoure et ses évolutions, qu’elles soient naturelles, sociétales ou techniques. En même temps, les informations utilisées pour représenter un phénomène complexe proviennent de sources diverses dont il est parfois difficile de maîtriser l’origine. En outre, l’usage de ces informations reste souvent imparfait car il ne répond pas correctement aux besoins initiaux.

 

La qualité des données localisées doit permettre de renforcer les démarches d’analyse spatiale, d’aide à la décision, d’archivage, et de favoriser les échanges entre partenaires et la consultation des données par le public.

 

Les questions légitimes qui se posent face à ce type de démarches sont souvent du type :

 

·        les données sont-elles fiables ?

·        sont-elles précises ?

·        sont-elles à jour ?

·        sont-elles exhaustives ?

·        sont-elles communicables sans risque ?

·        sont-elles compatibles avec les autres données dont je dispose ?

·        répondent-elles aux normes en vigueur ?

·       

 

 

Autant de questions difficiles qui ne trouvent pas toujours de réponse. Elles traduisent de façon générale non seulement une carence de l’information associée aux données (appelée métadonnées), mais surtout un doute sous-jacent sur la qualité intrinsèque des données elles-mêmes, notamment dans le cadre de leur réutilisation. Or, rappelons ici que les métadonnées contribuent pleinement à l’expression même de la qualité.

L’enjeu est donc bien d’aider l’ensemble de ceux qui manipulent ou utilisent l’information géographique, au quotidien ou de façon épisodique, à se familiariser avec les notions de qualité en matière de données localisées.

L’objectif de cette fiche est avant tout de prendre conscience des enjeux de la qualité d’une base de données géographiques et de savoir la contrôler. Pour mieux cerner ce sujet, seront évoqués, en premier lieu, les principaux enjeux de la qualité des données localisées, puis en second lieu, la notion proprement dite de qualité à travers ses divers critères. Enfin, une méthode pratique d’évaluation de la qualité d’une base de données localisées sera présentée en dernière partie et illustrée par un exemple.

 

DE NOMBREUX ENJEUX ENTOURENT LA NOTION DE QUALITE DES DONNEES LOCALISEES

Un enjeu d’échanges : participer au développement des partenariats et des usages

 

La politique partenariale prendra tout son sens si les échanges de données localisées sont effectivement réalisés.

 

Pour atteindre cet objectif, il faut donc placer la qualité au cœur des préoccupations concernant l’usage des données localisées afin de rendre ces échanges fructueux.

Un enjeu organisationnel : participer à une administration rigoureuse des données localisées et développer l’usage des métadonnées.

 

Face à la quantité et à la diversité des utilisateurs et des données localisées produites, il devient nécessaire de connaître la provenance des informations à traiter. C’est pourquoi, des critères de qualité deviennent indispensables aux données localisées, dès leur saisie. Ces informations supplémentaires permettent alors d’exploiter des données de sources différentes en toute sécurité pour les utilisateurs pour mieux en maîtriser les limites.

Ainsi, la production ou l’utilisation de données localisées de qualité participe pleinement à une administration rigoureuse des données localisées au sein d’un service. Si les métadonnées n’améliorent pas à proprement parler la qualité des données, elles permettent en revanche de décrire cette qualité et aident l’utilisateur à choisir un jeu de données correspondant à ses propres besoins.

Un enjeu économique : maîtriser ses besoins et chercher à rentabiliser les données

 

Même si le coût des données a fortement baissé ces dernières années, il représente encore le poste le plus élevé dans l’acquisition d’un équipement de traitement de l’information. C’est la raison pour laquelle ce coût important incite les acheteurs de données à des simplifications dans les commandes pour n’acquérir a minima que les données dont l’utilisateur a le plus besoin.

 

Mais, cet investissement milite pour une réutilisation (mutualisation, échange, diffu-sion…) des données qui nécessitent alors d’être constituées de façon à satisfaire, non plus un besoin pour un usage, mais plusieurs besoins pour de multiples usages.

 

C’est ainsi que l’évolution actuelle de la constitution des jeux de données s’oriente vers des aspects de production plus complexes qui nécessitent la mise en place de normes de façon à ce que chacun y trouve sa « matière première ».

Cette constellation de données produites noie les usagers. Cela incite de plus en plus les producteurs à documenter les jeux de données qu’ils constituent.

Cette volonté s’est naturellement traduite par l’énoncé d’un certain nombre de critères définissant tant la donnée que sa qualité, comme c’est le cas pour tous les produits de consommation courante.

En revanche, la qualité a un coût non négligeable qui nécessite des choix et des concessions adaptées.

Un enjeu de professionnalisation : développer la rigueur dans les métiers

La manipulation de données de qualité génère une plus grande rigueur dans l’usage des données localisées et permet ainsi de maîtriser les analyses menées et les résultats obtenus. N’est-ce pas là l’essence même de l’assurance de la qualité ?

QU’EST-CE QUE LA QUALITE ET COMMENT S’EXPRIME-T-ELLE ?

 

La qualité en règle générale se définit comme :

« l’ensemble des propriétés et caractéristiques d’un produit ou d’un service qui lui confère l’aptitude à satisfaire des besoins exprimés ou implicites. » (Norme ISO 8402 :1994)

 

En fait, il ne s’agit pas de dire si les données localisées sont de bonne ou de mauvaise qualité, mais simplement de vérifier que le niveau de qualité proposé est en adéquation avec l’application envisagée et les besoins des utilisateurs. La difficulté réside dans le compromis à trouver entre les besoins et le « gérable ».

La fiche 47 du CNIG, publiée en 2001, définit la qualité des données localisées en l’appréciant par sept critères, définis ci-après.

La précision sémantique identifie les confusions faites entre objets, attributs ou relations.

L'exhaustivité précise la présence ou l’absence d’objets cartographiques (pris en compte) dans le lot de données par rapport à l’ensemble des éléments du terrain.

La cohérence logique décrit la fidélité structurelle des données par rapport à la réalité, autrement dit la fiabilité générale des informations.

La précision géométrique (altimétrique et planimétrique) représente l’estimation de la fluctuation des écarts entre positions (sur le terrain) nominales et les positions contenues dans le jeu de données.

L'actualité introduit une référence temporelle permettant de savoir si les données sont à jour.

La généalogie retrace l’histoire du jeu de données depuis sa création (acquisition) en décrivant les utilisations qu’elle a permises.

La qualité spécifique permet à l’utilisateur de définir ses propres critères de qualité si les critères officiels ne répondent pas à leurs attentes. C'est en quelque sorte un "critère personnalisé".

 

 

 

Rappelons que ces sept critères « qualité » se décomposent en deux classes : les qualitatifs (actualité, généalogie) et les quantitatifs. Certains d’entre eux, tels que l’actualité ou encore la qualité spécifique, ne peuvent être classés aussi catégoriquement dans l’une ou l’autre de ces classes. Les critères quantitatifs (précision sémantique, exhaustivité, cohérence logique, précision géométrique) peuvent se résumer en quelques calculs, mesures et tests à effectuer pour obtenir un résultat.

 

La norme ISO 19113 :2002 définit également les sous-éléments de qualité comme les composants d’un critère qualité décrivant certains aspects de ce critère : par exemple, le « taux d’excédent » est un sous-élément du critère « exhaustivité ».

 Pour les utilisateurs de données localisées, tous ces critères permettent de mieux comprendre comment évaluer la qualité et de mieux identifier les facteurs d'amélioration ou de dégradation de la qualité.

Pour les utilisateurs qui produisent des données localisées, ces critères permettent d’avoir une meilleure approche des points pouvant poser problème lors de la saisie ou d’appliquer un certain nombre de tests permettant de savoir si les données localisées étudiées répondent au cahier des charges initial.

Enfin, chacun de ces critères permet de définir une mesure de la qualité qui peut s’appliquer soit individuellement, soit à une catégorie d’objet, de relation ou d’attribut.

VERS UNE METHODE PRATIQUE D’EVALUATION DE LA QUALITE D’UNE BASE DE DONNEES LOCALISEES.

 

L’ensemble des actions (mesures, évaluations…) nécessaires au contrôle de la qualité reste une étape complexe dans la mesure où toute base de données localisées n’est que la représentation numérique d’une abstraction du monde et que le contrôle ne peut s’effectuer qu’à partir de cette abstraction.

Les sources d’erreurs sont nombreuses : elles peuvent être liées à la collecte des données (matériel de mesure imprécis, mal utilisé, données incomplètes), à la saisie (mauvais encodage des attributs, géométrie incorrecte…), à leurs traitements (modélisation abusive, généralisation erronée, interpolation spatiale fausse…). Ces erreurs affectent directement la qualité de certaines données gérées dans les bases de données localisées et par conséquent, les résultats des analyses spatiales dont la majorité sert de référence pour l’aide à la décision.

Peu de méthodologies ont été mises au point pour le suivi et le traitement de cette méta information. Face à ce constat, cette partie vise à présenter une démarche de contrôle qualité de manière plus appliquée en indiquant comment procéder et les différentes étapes à suivre pour produire et enregistrer des données localisées de qualité. La description reste toutefois théorique et méthodologique.

Il est impératif d’avoir recours à l’ensemble de tous les critères de qualité, quantitatifs et qualitatifs applicables, cités précédemment, lorsqu’un jeu de données localisées est créé.

 

 

Huit points de contrôle décrits précisément ci-après permettent de s’assurer qu’une base de données localisées décrit bien la qualité selon la norme ISO 19113 :2002. Il s’agit d’une série de tests qualité à réaliser dans les cas les plus classiques d’évaluation de la qualité.

 

La préoccupation de la qualité ne doit pas être l’affaire des seuls producteurs qui commercialisent leurs données. La plupart ont déjà mis en place des procédures de contrôle qualité. En revanche, les collectivités locales ou les divers organismes qui produisent leurs données pour leurs propres besoins ont parfois du mal à intégrer cette dimension dans toutes ses acceptions.

 

La fiche n° 47 du CNIG conclut sur la qualité des données « La qualité des données localisées n’est pas une référence absolue et résulte d’un arbitrage entre la réponse à un besoin, un coût et des délais de production… Beaucoup d’utilisateurs n’imaginent pas quels autres usages pourraient être faits des données qu’ils génèrent. L’information géographique numérique est un domaine où chaque utilisateur doit aussi apprendre à connaître les métiers connexes au sien, où les données qu’il crée pourraient être réutilisées moyennant un effort modeste ».

 

Par ailleurs, il faut rappeler que le diffuseur d’une donnée a une responsabilité juridique envers les futurs utilisateurs. L’affichage de critères qualité est un moyen de permettre au tiers une utilisation plus fiable des données localisées.

 

Face à la diversité de l’information, des sources et des utilisateurs, l’information sur la qualité reste un enjeu de taille pour favoriser une utilisation optimale de l’information géographique numérique, à l’aide d’outils les mieux adaptés, et pour développer les échanges.

 

TEST

Test 1. Utiliser les 7 critères qualité (ensemble des 7 critères qualité, quantitatifs et qualitatifs) pour décrire la qualité d’un jeu de données localisées.

But : S’assurer que les critères qualité sont exhaustivement utilisés dans la description qualité d’un jeu de données localisées.

 

Test 2. Valider les informations qualité.

But : S’assurer que la description de la qualité du jeu de données est correcte.

 

Test 3. Appliquer la qualité quantitative.

But : S’assurer que la description de la qualité quantitative est applicable.

 

Test 4. Appliquer la qualité non quantitative.

But : S’assurer que la description de la qualité non quantitative est applicable.

 

Test 5. Valider les critères spécifiques.

But : S’assurer que les critères spécifiques ne sont pas redondants par rapport aux autres critères qualité et que l’information décrivant ce critère spécifique est suffisante.

 

Test 6. Décrire correctement les sous-éléments qualité.

But : Vérifier que les descriptions des sous-éléments ont été correctement utilisées dans la description de la qualité.

 

Test 7. Consigner l’information qualité dans les métadonnées.

But : Vérifier que la description qualité est bien enregistrée en tant que métadonnée.

 

Test 8. Rédiger un rapport décrivant l’information qualité quantitative.

But : Vérifier que la qualité quantitative de la description qualité est consignée dans un rapport d’évaluation qualité, en conformité avec les exigences de la norme.

 

 

METHODE

1.  Examiner la description de la qualité et vérifier que tous les critères quantitatifs et qualitatifs (ainsi que les mesures et les résultats de ceux-ci) ont bien été utilisés pour décrire l’information de qualité.

 

2. Examiner la description de la qualité et vérifier l’utilisation effective des critères et sous-critères qualité des données.

 

3. Dans les spécifications des données identifier les points relevant de la qualité quantitative et les utiliser pour identifier les éléments et sous-éléments de qualité des données. Cette identification sert surtout à déterminer si leur utilisation est correcte.

 

4. Contrôler que les critères qualitatifs (applicables) sont bien utilisés pour décrire la qualité non-quantitative.

 

5. Examiner tous les critères qualité spécifiques et s’assurer qu’il n’y a pas de redondance avec des critères quantitatifs ou qualitatifs précédemment listés. Vérifier cette redondance également au niveau des sous-éléments.

Vérifier que le nom et la description des critères spécifiques sont bien cités dans la description des informations qualité pour un jeu de données.

 

6. Vérifier que la description des sous-éléments qualité est correcte et exhaustive : champ d’action, type de valeur, type d’unité, type de mesure, etc…

 

7. Contrôler que l’information qualité quantitative et qualitative a bien été enregistrée comme métadonnée en conformité avec la norme ISO 19115 :2003.

 

8. Contrôler que l’information qualité quantitative est consignée dans un « rapport d’évaluation qualité » en conformité avec les exigences de la norme ISO 19114 :2003.

 

 

EXEMPLE D’ILLUSTRATION DES CRITERES QUALITES ET METHODE D’EVALUATION

 

Description : saisie par sous-traitance d’une base de données de divers équipements publics d’une ville sur la géométrie du PCI vecteur utilisé comme référentiel.

Les principales tâches du maître d’ouvrage sont les suivantes :

 

Rédaction des spécifications de la base de données, des spécifications de saisie et du cahier des charges :

 

-         liste des équipements publics à saisir avec leurs attributs

 

-         description des sources d’information à utiliser (informations et listes détenues par les administrations concernées) et méthode proposée (passage terrain pour le contrôle et la saisie définitive)

 

-         description de la géométrie (position géométrique de l’équipement public à l’intérieur du bâtiment et complément avec divers attributs comme le nombre et le rang des étages occupés par l’équipement public…)

 

-         description de la qualité attendue (géométrique et sémantique) critère par critère

 

= actualité : on considère que chaque administration dispose de listes à jour de ses différents équipements. Ces listes sont la référence

 

= généalogie : source des données (cadastre), date de saisie, organisme responsable, référence aux listes utilisées…

 

= cohérence logique : fichiers lisibles, relations entre objets respectées, topologie représentée et respectée, valeurs appropriées aux limites prévues…

 

= précision géométrique : les équipements publics occupent une partie ou la totalité des bâtiments présents sur le cadastre. Les polygones décrivant ces équipements partagent donc la totalité ou une partie de la géométrie du cadastre. Des attributs viennent compléter ce positionnement (étages…). Ces attributs sont considérés comme un sous-élément de la précision géométrique

 

= exhaustivité : contrôle des équipements saisis avec les listes utilisées

 

= précision sémantique : identifier les confusions entre objets ou entre attributs

 

= qualité spécifique : déterminer le nombre de fautes d’orthographe dans les toponymes, prévoir la taille de l’échantillon, définir le taux de rejet…

 

 

Réception de la base et contrôles qualité

 

- Test 1 : s’assurer que les 7 critères ont bien été prévus lors de la rédaction du document de description de la qualité attendue. Ce test doit être fait avant la réalisation des travaux.

 

- Test 2 : s’assurer que la totalité des critères sont fidèlement mesurés et renseignés en tenant compte des formats, des valeurs limites et des taux de rejet éventuels.

 

- Test 3 : contrôler les 4 critères quantitatifs par rapport au cahier des charges : cohérence logique, précision géométrique, exhaustivité, précision sémantique. On peut prévoir à ce moment un passage sur le terrain pour contrôler, compter, mesurer sur des échantillons prévus initialement.

 

- Test 4 : contrôler les 2 critères qualitatifs : actualité et généalogie. Dans la plupart des cas, ces contrôles concernent les données attributaires.

 

- Test 5 : contrôler la qualité spécifique : dans notre cas, il s’agit de vérifier l’orthographe d’un échantillon de toponymes.

 

- Test 6 : contrôler les sous-éléments des critères qualités. Dans notre exemple, on vérifiera les attributs liés à la précision géométrique décrivant le positionnement des équipements publics au sein des bâtiments du cadastre.

 

- Test 7 : consigner l’information qualité qui vient d’être mesurée dans les métadonnées à l’aide du logiciel REPORTS par exemple.

 

- Test 8 : contrôler que l’information qualité quantitative est consignée dans un rapport d’évaluation qualité.

 

 

 

 

…/information/exemple/sensibilisation/réflexion/méthodologie/état des lieux/point de vue/technique/…