Archivage d’une base de données : intérêt du format SIARD ?

Je risque d’être un peu provocateur mais la première question est de revenir au besoin. En effet, archiver une base de données ne veut pas dire grand-chose. Autant le contenu d’un document bureautique est compréhensible par un humain (à condition de disposer du bon lecteur évidemment), autant le contenu d’une base de données ne représente que des datas élémentaires. Et archiver une donnée sans son contexte n’a pas d’intérêt.

Si j’ai la valeur 100 dans la base il faut que je sache si cela représente 100€ ou 100k€ ou 100°C, que je connaisse ce que cela représente (un montant de facture, une température…) et son environnement (facture n° 123 du client ABC…, température maximale supportée par le composant X).

Il est donc souvent nécessaire de revenir à l’application au dessus de cette base de données pour analyser le besoin d’archivage. Et la solution sera différente suivant le besoin.

Je mets de côté le besoin IT de faire « maigrir » une application en enlevant des données pour avoir des meilleures performances. Je ne considère pas cela comme de l’archivage pur. La solution passe alors par des mécanismes internes offerts par le système de gestion de la base de données.

La solution, très lourde, consistant à conserver l’environnement complet (ordinateur, logiciels…) est à éviter mais certains contextes n’offrent pas d’autre alternative.

Voici quelques exemples de besoins :

  • Paie : je n’ai pas besoin d’archiver la base de données de la paie. En revanche, je dois archiver les bulletins de salaire. On revient à la problématique de l’archivage du document (papier ou électronique)
  • Données métiers (base interne) : données d’observation, données de modélisation d’un système…
    Il est nécessaire d’identifier une représentation externe de cette information et fournir le moyen de ‘relire’ le contenu. Plus le modèle de données est compliqué, plus la fonction de relecture le sera également. La tâche est encore plus compliquée si l’application au dessus de la base de données fournit des fonctions de calculs, agrégation… Dans ce cas, il faut également conserver les concepts et algorithmes permettant de manipuler les données.
  • PLM (Product Lifecycle Management). Ces applications permettent de gérer en configuration des produits (voiture, train, téléphone) tout au long de leur vie. Un tel système repose sur un modèle de données complexes (nomenclature) souvent propriétaire (pouvant comporter des centaines de ‘tables’), des millions de documents (des plans, des documents techniques…)
    La norme ISO STEP (STandard for the Exchange of Product model data) peut apporter quelques éléments de réponse mais cela nécessite une investigation poussée. Il arrive donc souvent que les données soient conservées en ligne…

Sur la problématique technique, les Archives Fédérales Suisses (AFS) ont défini un format standard SIARD (Software Independent Archiving of Relational Database) qui est un format de fichier ouvert pour l’archivage des contenus de bases de données relationnelles (utilisation du XML pour avoir une représentation générique du modèle de données avec typage des informations, gestion des relations ce qui est un plus important par rapport à un export brut en CSV). De plus, l’outillage (SIARD Suite) est également offert pour convertir une base de données relationnelle dans le format SIARD (et fonction inverse d’import pour pouvoir utiliser la puissance des requêtes SQL).

Le CINES (Centre informatique National de l’Enseignement Supérieur) a publié un intéressant guide (V1.1 du 16 avril 2013) autour de la problématique de l’archivage d’une base de données. Il pose notamment de bonnes questions sur la démarche à suivre, les avantages et inconvénients de différents formats candidats (Dump, CSV, XML, SIARD).

Pour conclure, SIARD est une approche à étudier lorsqu’on souhaite exporter des données d’une base de données ayant un modèle de données relativement simple (ou facilement compréhensible). Mais la clé est d’analyser le besoin initial pour identifier quoi archiver et quand…

PS : SIARD version 1.0 est approuvé depuis le 21.03.2013 par eCH sous la référence eCH-0165.

eCH :

développe et adopte des normes de cyberadministration, des solutions type, et des documents auxiliaires [au niveau de la Suisse]. Les normes ont valeur de recommandations et sont mises à disposition gratuitement

À propos Mémoire Digitale
Responsable dans les Systèmes d'Information d'une grande entreprise autour des technologies liées aux ECM, Workflow, RSE, Archivage...

3 Responses to Archivage d’une base de données : intérêt du format SIARD ?

  1. Je me permets d’ajouter que le format SIARD est désormais une norme eCH, eCH-0165, http://www.ech.ch/vechweb/page?p=dossier&documentNumber=eCH-0165&documentVersion=1.0&userLanguage=fr. eCH est l’organisme suisse de standardisation dans le domaine de la cyberadministration et sera responsable pour l’entretien et le futur développement de SIARD.

    • Bonjour,
      Effectivement, je n’avais pas remonté cette information.
      C’est toujours intéressant car cela montre l’importance du sujet pour la Suisse
      Je vais modifier en conséquence…

      Merci pour ce retour

  2. Pierre Marcotte dit :

    Pour commencer, tout à fait d’accord pour dire qu’on archive les/des données d’une base et non la base en elle-même.

    Il me paraît aussi important d’insister sur la qualité de l’information de représentation associée aux données archivées. On le perçoit difficilement à court terme, mais sur la longue durée, elle est capitale. Aux Archives nationales, l’information de représentation pour nos bases les plus anciennes prend la forme d’une documentation papier que l’on couple à un système de bases de données type dictionnaire des données d’une base: cela correspond à un certain âge de l’informatique (il y a trente ans…). A l’avenir, un des principaux enjeux est à mes yeux d’organiser l’information de représentation de telle sorte que la logique structurelle des données puisse être restituée de manière efficace et performante pour l’accès.

    Finalement, cela ne dépend que marginalement du format d’export des données utilisé et cela demande avant tout des cellules grises. La première chose à demander à un format d’export, c’est de bien fonctionner dans un écosystème centré sur la restitution intelligible de l’information.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s

%d blogueurs aiment cette page :