CSV Validator, le XML du pauvre ?

Les Archives Anglaises ont défini un format  pour faciliter la récupération d’informations à archiver depuis une application source.

Le constat était simple : « it was recognised that it was too difficult and/or expensive for many suppliers to produce the desired metadata in XML »

Le format CSV, quant à lui, est un bon candidat, car facile à générer. En revanche, il est trop laxiste et trop limité.

D’où la notion d’un fichier CSV (ce n’est donc pas un nouveau format) qui suivrait un « schéma CSV » permettant de définir des règles de formattage.
Un schéma CSV permettra par exemple de :

  • Définir des informations générales que doit respecter le fichier (séparateur de colonnes, nombre de colonnes)
  • Indiquer le type de colonne : entier, date, chaîne…
  • Indiquer une contrainte plus forte sur le contenu d’une colonne : liste de valeurs autorisées, expression régulière, nombre de caractères,chemin de fichier valide…

« CSV validator » est l’outil qui valide un fichier .csv par rapport à un schéma CSV. Il sort une log d’erreur si une règle n’est pas respectée.

Ce fichier schéma CSV (extension .csvs) est,fichier texte ayant une syntaxe relativement simple pour exprimer les règles que le fichier CSV doit suivre.

Par exemple, le schéma (csv avec 3 colonnes : un nom, un age et le genre) :

version 1.0
@separator ‘;’
@totalColumns 3
name: notEmpty
age: range(0, 120)
gender: is(« m ») or is(« f ») or is(« t ») or is(« n »)

L’utilisation de ce format pour l’archivage est effectivement à étudier. Bien qu’il soit préférable de gérer du XML, le CSV Validator pourrait être une solution alternative intéressante. Mais plutôt que d’archiver directement ce fichier CSV (dans ce cas avec son fichier .csvs), il serait plus intéressant d’avoir un préprocesseur en entrée du système d’archivage qui prendrait ces fichiers CSV et les transformerait en fichiers XML.

 

PS : cet outil fait partie de la liste des outils Open Source identifiés par le NARA (The U.S. National Archives and Records Administration) dans le document Open Source Tools for Records Management Report de mars 2015

Archivage & Open Source font-ils bon ménage ?

Un mois de mars 2015 riche dans le domaine des archives :

  • La publication le 18 mars 2015 par le NARA (The U.S. National Archives and Records Administration) d’une liste d’outils autour du Records Management
  • L’annonce faite le 10 mars 2015 par le gouvernement du lancement officiel du programme VITAM (Valeurs Immatérielles Transmises aux Archives pour Mémoire)
  • Un nouveau module RM pour Maarch annoncé le 24 mars 2015

Ces 3 événements ont un lien commun car ils parlent tous d’Open Source. Est-ce une tendance de fond ? Est-ce une « bonne » idée d’introduire de l’Open Source dans un système d’archivage ?

Pour moi la question n’est pas là : le système doit répondre aux besoins exprimés et standards du marché avec une gestion de la durée de la conservation, une écriture en Y des contenus, une réversibilité, la gestion des empreintes pour garantir l’intégrité des données et les fonctions habituelles autour du document (accès, métadonnées, recherche…).

Dans le cadre de VITAM,  des briques Open Source seront utilisées  pour fournir un service de dépôt et consultation à base d’API. Pour certains composants, on peut penser qu’ils vont suivre le SILL (Socle Interministériel de Logiciels Libres dont la dernière version est sortie au début du mois de mars)  avec Apache, Tomcat, OpenLDAP, MangoDB (plutôt que PostgreSQL), ElasticSearch…

Mais cela ne concerne que les composants techniques. Il y aura donc des développements autour des spécificités de l’archivage pour implémenter les principes de l’OAIS, de MEDONA, de la 42-013 de MOREQ…

Développements qui seront eux-mêmes proposés en Open Source.

Bref, un beau projet qui n’est pas sans risques notamment au niveau de la capacité à proposer un modèle assez générique pour répondre au versement des différentes applications sources…

PS : Concernant la liste du NARA, j’y reviendrai dans d’autres articles en détaillant certaines solutions intéressantes.

 

2D-DOC ou Cachet Electronique Visible : technologie à suivre !

La FNTC (Fédération Nationale des Tiers de Confiance) était intervenue lors d’une réunion du CR2PA (Club des Responsables et Politiques d’Archivage) en mars 2014.

A cette occasion, la technologie 2D-DOC a été présentée par Eric Normand.

Un an plus tard, lors du prochain salon Documation-Mis, la FNTC propose une conférence le 19/03/2015 à 12h30 sur le thème du Cachet Electronique Visible (CEV).

A l’origine, l’état Français souhaitait un système permettant de limiter les faux papier (rien de plus facile que de sortir un faux justificatif de domicile par exemple).

Il consiste en la matérialisation d’un code à barres (style QR-CODE) sur le document pour ‘prouver’ que le contenu du document est correct.

Je vois plusieurs aspects intéressants au Cachet Electronique Visible 2D-DOC :

  • simple pour l’utilisateur : le code est matérialisé sur le document et peut être scanné facilement (application android ou ios). La copie ne pose pas de problème
  • mode mixte : peut être utilisé aussi bien pour un document papier que pour ‘un document électronique
  • Axe entreprise : le code permet d’extraire les données du document sans procéder à une lecture intelligente du document (analyse de zone) qui n’est pas sûre à 100%. L’exemple d’une facture devient très facile à lire avec ce système.

Au niveau technique, le 2D-DOC repose sur les mécanismes suivants :

  • Création du code :
  1. Identification des informations « essentielles » du document. Pour une quittance de loyer, on aurait l’adresse, le nom du locataire, la date et le montant du loyer
  2. Génération d’une empreinte unique à partir de ces informations
  3. Cette empreinte est signée via un certificat (clé privée de l’émetteur) délivré par l’ANTS (Agence Nationale des Titres Sécurisés)
  4. Les informations essentielles ainsi que l’empreinte signée sont utilisées pour générer un code (équivalent d’un QR-CODE)
  5. Ce code est inséré dans le document
  • Lecture du code :
  1. La personne lit le code à barres au travers d’une application et récupère les informations sur l’émetteur
  2. L’application se connecte sur le site de l’ANTS pour vérifier que tout est valide
  3. La personne peut comparer les données décryptées avec celles présentes sur le document et ainsi être certaine que son contenu n’a pas été falsifié

En revanche, ce mécanisme n’est pas prévu pour gérer tout type de document : les informations « essentielles » doivent être limitées pour être coder. On pourrait mettre une facture mais pas un contrat avec toutes ses clauses…

Pour aller plus loin :

On ne se mooc pas de vous ! Inscrivez-vous avant le 7 mars 2015

Sollicité par des centaines (voire milliers ?) de lecteurs, je reprends du service avec la publication de ce court article…

Car il y a urgence !

En effet, la plateforme FUN, met à disposition un MOOC (Massive Open Online Courses) proposé par le CR2PA sur l’archivage

Et les inscriptions se terminent le 7 mars 2015.

Le fait de s’inscrire permet d’accéder aux vidéos et documents, ressources très intéressantes sur le sujet.

Donc n’hésitez pas…

Archivage : Exemple d’un ‘bon’ cycle de vie

En publiant mon précédent article sur l’archivage dans le Cloud, je suis tombé sur un graphique présentant le cycle de vie d’un document, toujours extrait du même document de l’Aproged :

Copyright APROGED

Copyright APROGED

Ce graphique  a le mérite d’être simple et d’utiliser des concepts qui me plaisent :

  • En effet, on ne parle pas « d’archives courantes » pour désigner des documents en cours d’élaboration.
  • Sous l’angle IT, on parle d’un outil de GED pour traiter la gestion du document . En parallèle, et dès le document validé, on parle de SAE. Le document peut donc se trouver dans le deux systèmes à un moment donné. On peut imaginer un système hybride avec une interface GED qui pointe sur les documents stockés en SAE.
  • On ne met pas un graphique avec une notion de fréquence d’accès : un SAE n’a pas vocation à récupérer les documents d’une GED qui ne sont pas ‘souvent’ lus.
  • On voit bien que la fonction Records Management couvre les fonctions de GED et SAE sur la partie Archives intermédiaire. C’est bien l’ensemble du cycle de vie qu’il est important de gérer comme un tout, seule façon d’assurer une valeur probante au document.

La Théorie des 3 âges, sujet très régulièrement abordé sur la toile, définit sur un vocabulaire qui m’inspire beaucoup moins…

Saint-Cloud, archivez pour nous…

L’APROGED (Association des professionnels pour l’économie numérique) a publié le 15 janvier 2014, un livre blanc intitulé « Archivage sur le Cloud – Pratiques et perspectives ».

Cet intéressant document de 65 pages définit dans un premier temps les différentes possibilités d’archivage dans le Cloud :

Copyright APROGED

Copyright APROGED

Il aborde également les spécificités d’un archivage, contraintes que le Cloud doit supporter :

  • Localisation des données
  • Gestion des données personnelles
  • Sécurité des données
  • Réversibilités des données
  • Audit, traçabilité

Que ce soit pour un projet d’archivage ou pour un autre projet, la décision d’aller sur le Cloud est plutôt une décision de l’IT qu’une décision de la Maîtrise d’Ouvrage. En effet, à partir d’une description exhaustive des besoins et contraintes, le projet pourra définir si l’alternative Cloud a du sens dans son contexte.

Mais dans le cadre d’un projet d’archivage, il est clair que les fonctions de stockage offertes par un service de Cloud « basique » ne suffisent pas. L’offre de services doit s’enrichir pour répondre aux spécificités de l’archivage.

Archivage : quel est LE SAE idéal ?

Le choix d’un progiciel est une phase classique dans un projet du système d’Information.

Ce billet a vocation à mettre en lumière quelques points spécifiques sur le choix d’un progiciel d’archivage (SAE : Système d’Archivage Électronique).

1 – Processus de sélection d’un progiciel

Chaque DSI a sa manière de traiter cette phase de sélection, je resterai donc à un niveau macro. De plus, le processus est à adapter en fonction de l’importance du projet.

Habituellement, dans le choix d’un outil, il y a une phase de prospection visant à définir une liste de produits qui font « référence sur le marché » (au travers de la veille, d’études de marché…). Ensuite, on établit une liste de critères que doit remplir le progiciel (avec pondération éventuelle) répartis sur trois thèmes :

  • Partie Fonctionnelle : par rapport à une expression de besoin listant les exigences, notation des différents produits. Il peut être intéressant d’avoir une réponse nuancée : le produit répond au besoin / répond avec un paramétrage / répond avec un développement / ne répond pas au besoin
  • Partie Technique : partie essentiellement rédigée par la DSI autour des technologies utilisées, des protocoles supportés, des possibilités d’interface…
  • Partie Commune : partie souvent négligée que je trouve importante. Il s’agit de bien mesurer l’importance du produit pour l’éditeur (% du CA du produit / CA total, nombre de clients, nombre de développeurs, fréquence de publication de version, horaires de la hot-line, existence d’un club Utilisateur…). Il y a également les informations classiques sur l’entreprise elle-même, ses références et les prix (licence au volume à l’utilisateur, maintenance). Il est indispensable d’obtenir des noms d’entreprise utilisant le produit pour aller les interroger et avoir un « véritable » retour terrain.

Il est d’usage d’adresser ce questionnaire aux différents éditeurs mais, étrangement, l’outil est parfait selon l’éditeur et répond à tous les besoins. Il est impératif d’avoir un regard critique, d’avoir des soutenances avec les éditeurs pour échanger  autour de leur proposition…

A la fin de cette étape, il ne devrait rester plus que 1 ou 2 candidats. Des maquettes peuvent éventuellement être mises en place pour valider certains points et déterminer l’heureux gagnant.

2 – Spécificités de l’archivage

Lorsque le domaine concerne l’archivage, voici quelques points assez essentiels et déterminants pour le choix :

  • Archivage physique, de documents électronique ou mixte
  • Gestion de la durée de conservation, Gel
  • Sort final – définition d’un workflow (paramétrage, souplesse), alertes sur échéances
  • Réversibilité : lorsqu’on parle d’archivage, on peut parler de durées de conservation importantes. Il faut donc envisager la possibilité de changer de système d’archivage. Il doit donc offrir des fonctionnalités pour extraire les données
  • Ouverture flux entrants + système d’import : automatiser des versements applicatifs
  • Interrogation depuis une autre application
  • Connecteurs standards avec d’autres composants du SI (SAP, SharePoint). Bien analyser les possibilités de paramétrage de ces connecteurs
  • Mise en place de son propre connecteur pour s’interfacer avec une application « maison » (le développement de ce connecteur pourvant se faire en totale autonomie ou en sous-traitance)
  • Gestion de la migration de formats (les formats de fichiers évoluant, il sera peut être nécessaire de transformer les formats des document selon un processus contrôlé)
  • Gestion des supports (doit être transparent) : déplacement sur un media plus lent (plus économique)
  • Respect normes & standards ? Il n’est jamais facile de s’y retrouver dans la jungle des normes et standards autour de l’archivage. De toute façon, l’éditeur vous dira que son progiciel respecte  l’OAIS, MOREQ, NF Z 42-013…
    Tant qu’il n’y a pas de certification, difficile d’y voir clair. Il est néanmoins intéressant de les utiliser comme check-list afin de poser des questions sur certains thèmes : gestion des logs, horodatage pour la 42-013 ;  gestion des plans de classement, des métadonnées, gestion des rôles pour MOREQ ; gestion des versements et consultation avec l’OAIS…
  • Outil séparé ou module de l’ECM ? Les deux approches existent :  soit, j’ai un « pure player » spécialisé dans l’archivage, soit j’utilise un module de mon ECM. Dans ce dernier cas, il faut bien s’assurer que la brique Archivage est autonome, qu’elle est capable de traiter des versements provenant d’autres applications que l’ECM…

Voilà, maintenant vous avez toutes les billes pour trouver l’outil en parfaite adéquation avec vos besoins🙂