Vous êtes sur la page 1sur 61

Quel service public pour les données de jurisprudence ?

Un cahier des charges en 30 propositions, pour réussir l’open data des décisions de justice

Auteur de l’étude : Bruno Mathis 1

de justice Auteur de l’étude : Bruno Mathis 1 bmathis@cegetel.net +33 (0)6 17 12 13 65

bmathis@cegetel.net +33 (0)6 17 12 13 65

1 Bruno Mathis est consultant chez Julhiet Sterwen et membre de l’association Open Law. Plus de détail sur https://www.linkedin.com/in/bruno-mathis-5274086/

Quel service public pour les données de jurisprudence?

SOMMAIRE

PRÉAMBULE

5

1. L’ANONYMISATION DES DÉCISIONS

6

1.1 L’ENJEU

6

1.2 DÉFINITIONS

7

1.3 LES RISQUES LIÉS À LANONYMISATION

8

1.4 LES

RÈGLES DANONYMISATION

10

1.4.1 Principes généraux

10

1.4.2 Règles spécifiques aux juridictions

10

1.5 LES CAS PARTICULIERS

11

1.5.1 Les parties au procès non anonymisables

11

1.5.2 Les personnes morales à anonymiser

12

1.6 L’ANONYMISATION DES TIERS AU PROCÈS

12

1.6.1 Respect de la vie privée et anonymisation

12

1.6.2 Finalité et anonymisation

13

2. LA GESTION DU RISQUE

2.1 L’ANALYSE DIMPACT

14

14

2.1.1 Champ d’application

14

2.1.2 Quelle méthodologie?

14

2.1.3 Le contenu de l’analyse

15

2.1.4 Les modalités de publication de l’analyse

17

2.2 LES TECHNIQUES DE RÉDUCTION DU RISQUE DE RÉ-IDENTIFICATION

18

2.2.1 Tokenisation, randomisation et hachage

18

2.2.2 Analyse sémantique et auto-apprentissage

19

2.2.3 Le chiffrement

20

2.2.4 La mesure de qualité de l’anonymisation automatisée

21

3. LA CHAINE DE RESPONSABILITÉS

22

Quel service public pour les données de jurisprudence?

3.1 LA RESPONSABILITÉ DE LA PRODUCTION

22

3.1.1 L’analyse d’impact

22

3.1.2 L’anonymisation

23

3.1.3 Les métadonnées

24

3.2 LA RESPONSABILITÉ DE LA DIFFUSION

24

3.2.1 La responsabilité de la DILA

24

3.2.2 La

responsabilité

d’Etalab

24

3.2.3 Droits et devoirs des réutilisateurs

25

3.3 LA RESPONSABILITÉ DE LA CNIL

26

3.3.1 Consultation préalable

26

3.3.2 Obligations des rediffuseurs

27

4. LES MÉTADONNÉES DE LA JURISPRUDENCE

27

4.1 L’ENJEU

27

4.2 ETAT DES LIEUX DE LA NORMALISATION DES MÉTADONNÉES

27

4.2.1 L’ECLI

27

4.2.2 L’ELI

28

4.3 LA DESCRIPTION DES DÉCISIONS

30

4.3.1 Structure de l’identifiant ECLI

30

4.3.2 La codification de la juridiction

32

4.3.3 L’écriture des métadonnées ECLI obligatoires

34

4.3.4 L’écriture des métadonnées ECLI facultatives

35

4.3.5 Autres caractéristiques à décrire

36

4.3.6 Le format de publication des métadonnées

37

4.4 EVOLUTIONS DES NORMES EUROPÉENNES DES DONNÉES JURIDIQUES

38

4.4.1 Harmonisation des formats

38

4.4.2 Attributs de liens législatifs et jurisprudentiels

39

4.4.3 Ajout à l’ECLI de métadonnées supplémentaires

41

5. LE SERVICE PUBLIC DE DIFFUSION DE LA

JURISPRUDENCE

42

5.1 DÉFINITIONS

42

5.2 LE PÉRIMÈTRE DE LA DIFFUSION

42

Quel service public pour les données de jurisprudence?

5.3 LE FAIT DÉCLENCHEUR DE LA DIFFUSION

44

5.4 LES ÉTAPES DE LA DIFFUSION

45

5.4.1 L’immatriculation des décisions

45

5.4.2 La normalisation des métadonnées

45

5.4.3 L’ajout de titres et de liens

46

5.4.4 L’anonymisation

46

5.4.5 La mise à disposition

47

5.5 LE CIRCUIT DE PRODUCTION

49

5.5.1 Scénario 1 : transmission simultanée des décisions et des métadonnées

49

5.5.2 Scénario 2 : transmission séparée des décisions et des métadonnées

50

5.5.3 Scénario 3 : immatriculation des décisions par la DILA

52

5.6 LES AUTRES TÂCHES DE GESTION

53

5.6.1 La recherche de jurisprudence

53

5.6.2 La gestion des droits d’opposition, de rectification et de suppression

55

5.6.3 La rectification à l’initiative de la juridiction

56

5.6.4 La notification de décision au justiciable

57

5.6.5 La délivrance de copie de décision

57

5.6.6 L’administration des nomenclatures juridiques

58

5.6.7 L’archivage

58

Quel service public pour les données de jurisprudence?

PRÉAMBULE

La loi République numérique 2 , adoptée le 8 octobre 2016, acte le principe de la mise à disposition des données publiques en « open data », dans un format ouvert et interopérable. Ce principe s’applique notamment à la jurisprudence, dans les articles 20, relatif aux décisions de l’ordre administratif 3 , et 21, relatif à celles de l’ordre judiciaire 4 , qui

disposent chacun : « [Les] jugements sont mis à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées ».

Ceci représente un décuplement du volume actuel, soit quelque 1 500 000 décisions par an pour le seul ordre judiciaire 5 .

Le colloque « La jurisprudence dans le mouvement open data », organisé par la Cour de Cassation le 14 octobre dernier 6 , a mis en évidence les enjeux juridiques de l’ouverture de la jurisprudence, mais ce projet, sans équivalent à l’étranger, est également soumis à des enjeux techniques, organisationnels et opérationnels inédits. De fait, le législateur a entrevu les difficultés de mise en pratique, les articles 20 et 21 annonçant chacun qu’un « décret en

Conseil d'Etat fixe, pour les jugements de premier ressort, d'appel ou de cassation, les conditions

d'application du présent article ». Ces décrets pourraient sortir au cours du premier trimestre

2017 7 .

Le propos de cette étude est de développer ces différents enjeux et d’esquisser, sous la forme de 30 propositions adressées aux pouvoirs publics, une liste d’actions à mener pour la mise en œuvre de ce projet.

La mise à disposition des jugements devant être faite « dans le respect de la vie privée », le premier chapitre de l’étude porte sur l’anonymisation des décisions, ses enjeux, son périmètre, ses règles générales et ses exceptions. Le deuxième traite la façon dont l’approche par les risques, introduite par le règlement général sur la protection des données (RGDP), dans son article 35, pourrait s’appliquer concrètement au cas de l’ouverture de la jurisprudence 8 . Le suivant évoque la chaine des responsabilités, ou plus exactement une liste, non limitative, des enjeux juridiques portant sur chacun des acteurs de la filière, de la juridiction jusqu’au réutilisateur final.

2

3

4

5

6

7

Quel service public pour les données de jurisprudence?

Le chapitre 4 traite des métadonnées de la jurisprudence, comment et jusqu’où elles décrivent les décisions, quels usages leur maillage ouvre au public et comment les efforts normatifs européens devraient les faire évoluer.

Enfin, le dernier chapitre propose une définition du service public de diffusion de la jurisprudence tel qu’issu de la loi République numérique.

1.

L’ANONYMISATION DES DÉCISIONS

1.1

L’enjeu

« Constitue une donnée à caractère personnel toute information relative à une personne

physique » dit l’article 2 de la Loi Informatique & Libertés 9 . S’il ne s’agissait que des données d’identification directe, essentiellement d’état-civil et d’adresse, l’enjeu de l’anonymisation ne serait pas très différent de celui de la grande majorité des entreprises dans la mise en conformité de leurs traitements de données personnelles.

Les décisions de justice ont la forme de données textuelles. Certaines d’entre elles se lisent comme un roman. La vie du justiciable y est quelquefois mise à nu. Dans certaines affaires, le risque de ré-identification d’un justiciable est significatif, malgré la substitution ou la suppression de quelques caractéristiques personnelles 10 .

L’ouverture de la jurisprudence est ainsi soumise à un enjeu technique inédit : les décisions de justice doivent y être anonymisées à la hauteur des préjudices possibles sur la vie privée, et en même temps rester intelligibles, pour respecter le droit à l’information de décisions rendues « au nom du peuple français » 11 .

9 https://www.cnil.fr/fr/loi-78-17-du-6-janvier-1978-modifiee 10 Par exemple, la phrase "J.K a été condamné à verser 1 million d'euros à la Société générale" permet la ré- identification par individualisation, du fait de la notoriété du justiciable (une anonymisation parfaite comme « X a été condamné à verser Y euros à Z » aurait en revanche sans doute rendu la décision inexploitable) 11 Le droit à l’information est encore plus prégnant dans la doctrine anglo-saxonne, selon Bénédicte Fauvarque-Cosson, dans une communication au colloque « La jurisprudence dans le mouvement de l’open data » du 14 octobre 2016,

Quel service public pour les données de jurisprudence?

1.2

Définitions

Dans sa délibération du 29 novembre 2001 portant recommandation sur la diffusion de données personnelles sur internet par les banques de données de jurisprudence 12 , la

CNIL recommande d’anonymiser « le nom et l'adresse des parties et des témoins, dans tous les jugements et arrêts librement accessibles sur Internet, quels que soient l'ordre ou le degré de la juridiction et la nature du contentieux, mais cela seulement ».

Selon la fiche n°10 de la CNIL consacrée à la sécurité des données 13 , « le terme d’anonymisation est réservé aux opérations irréversibles. On utilise le terme de pseudonymisation lorsque l’opération est réversible. La pseudonymisation peut permettre la ré-identification, l'anonymisation non ». L’irréversibilité serait assurée par la modification ou la suppression de toute information directement ou indirectement identifiante.

En matière de santé, la pseudonymisation signifie le remplacement de l’identité véritable par un identifiant conventionnel (souvent un « numéro d’anonymat ») qui permet de suivre la même personne tout au long d’un parcours thérapeutique 14 . Transposée à la jurisprudence, cette définition signifierait que toutes les décisions d’un même parcours judiciaire désigneraient la même personne par un même pseudonyme 15 .

Quoi qu’il en soit, ni l’anonymisation ni la pseudonymisation ne sont définies dans la loi 16 . La littérature académique préfère le terme de dépersonnalisation à celui d’anonymisation, plus trompeur en ce qu’il laisse accréditer une garantie d’anonymat.

En matière de jurisprudence, supprimer, c’est-à-dire occulter, les civilité, nom et prénom, y compris leurs initiales, brouillerait les rôles des protagonistes et entamerait à coup sûr l’intelligibilité du texte. Ne reste donc, sur les patronymes, que la possibilité de substituer.

On peut substituer M. Dupont par M.X et Mme Martin par Mme Y, en les ordonnant alphabétiquement selon l’ordre d’apparition des protagonistes dans le texte, comme le font actuellement les cours suprêmes. On peut aussi les substituer alternativement par leurs initiales, ou par des codes plus longs, à valeur mnémotechnique ou non, qu’on

14 Sous la coordination d’André LOTH, 2015, « Données de santé : anonymat et risque de ré-identification », Dossiers Solidarité Santé n°64, Drees, Juillet, http://drees.social-sante.gouv.fr/etudes-et-statistiques/publications/les-dossiers-de- la-drees/dossiers-solidarite-et-sante/article/donnees-de-sante-anonymat-et-risque-de-re-identification, page 9 15 La loi République numérique aussi est plus spécifique pour les données de santé que pour les données de jurisprudence, le traitement des premières étant exempté, dans son article 34, de toute déclaration à la CNIL dès lors qu’elles ont fait l’objet d’une « opération cryptographique » - elle-même déclarée et que leur réutilisation est statistique et publique. 16 http://openlaw.fr/images/7/7d/Anom_Pseudo_Données_Justice_%28CASSAR_B%29.pdf, mémoire de Bertrand Cassar sous la direction de Thomas Saint-Aubin (Paris I)

Quel service public pour les données de jurisprudence?

appellera spontanément « pseudos ». Mais ces trois méthodes relèvent d’une pseudonymisation, et elles sont a priori réversibles.

Substitution et occultation peuvent être combinés. La première technique s’appliquerait aux patronymes, la seconde aux adresses et aux données personnelles non directement identifiantes, comme dans cet exemple appliqué par la Cour de Cassation :

« M. Dupont, demeurant 92 rue Richelieu à Paris (75002), M Martin, demeurant 1 place du palais royal à Paris (75001) » devient « M. X…, demeurant […], M Y…, demeurant […] »

Ceci étant rappelé, dans la suite de cette étude, nous continuons à employer le terme d’anonymisation de façon générique 17 .

1.3 Les risques liés à l’anonymisation

En renonçant au principe de la déclaration préalable au profit de celui de « accountability », et en introduisant dans son article 35 l’analyse d'impact relative à la protection des données, le RGDP incarne une approche par la mesure des risques se substituant à la politique précédente d’instruction de mesures de protection.

En matière d’ouverture de la jurisprudence, le risque se subdivise en un risque de « mésanonymisation », en particulier en cas de défaillance d’un programme basé sur des règles sémantiques, et un risque de ré-identification.

L’opinion sur les techniques d’anonymisation émise en avril 2014 par le groupe de travail sur la protection des données 18 détaille encore trois types de ré-identification :

L’individualisation correspond à la possibilité d’isoler une partie ou la totalité des enregistrements identifiant un individu dans l’ensemble de données. Ce risque est en particulier proportionnel au nombre de mentions de l’individu dans le texte de la décision.

La corrélation consiste dans la capacité de relier entre elles, au moins, deux enregistrements se rapportant à la même personne concernée ou à un groupe de personnes concernées (soit dans la même base de données, soit dans deux bases de données différentes). Si une attaque permet d’établir (par exemple, au moyen d’une analyse de corrélation) que deux enregistrements correspondent à un même groupe d’individus, mais ne permet pas d’isoler des individus au sein

17 Et le terme de jurisprudence pour désigner un ensemble de décisions de justice, conformément à l’usage dominant, même si le terme de contentieux serait techniquement plus exact 18 http://ec.europa.eu/justice/data-protection/article-29/documentation/opinion-

Quel service public pour les données de jurisprudence?

de ce groupe, la technique résiste à l’«individualisation», mais non à la corrélation;

L’inférence est la possibilité de déduire, avec un degré de probabilité élevé, la valeur d’un attribut à partir des valeurs d’un ensemble d’autres attributs. Ce risque croit en particulier avec chaque recours : le rapprochement de décisions anonymisées s’inscrivant dans une même chaine de contentieux accroit le risque de ré-identification.

Ces sous-risques sont susceptibles d’être évalués différemment selon le type des décisions : par exemple, le risque d’individualisation est grand dans la jurisprudence d’état-civil ou du Défenseur des droits et le risque d’inférence important également dans la jurisprudence en propriété industrielle.

L’approche par les risques rompt avec le principe de recherche du zéro-défaut et invite à renoncer à l’exhaustivité d’un inventaire des données identifiantes ou à pouvoir de ré-identification. S’il est vrai, pour prendre quelques exemples évidents, qu’une adresse IP, une adresse email, un numéro de téléphone, de sécurité sociale, de compte bancaire sont autant de données personnelles, les inclure dans une liste de termes ou d’expressions régulières à dépister par un logiciel d’anonymisation aurait trois inconvénients :

Cela serait vain en ce sens que cela n’empêcherait pas le pouvoir d’identification de fragments de texte non directement identifiants. Par exemple, l’expression « le petit garçon a été jeté vivant dans la Vologne » permet d’identifier l’Affaire Grégory et pourtant aucun des mots qui la composent n’aurait pu figurer dans une liste de mots-clef à détecter ;

Cela alourdirait inutilement le temps de traitement de l’anonymisation et introduirait des risques d’erreur, au regard de la prévalence statistique de telles occurrences ; « le mieux est l’ennemi du bien », dit l’adage ;

Cela nuirait à l’intelligibilité de certains textes où ces mentions sont centrales dans la décision : par exemple, mentionner une adresse email peut être nécessaire à la compréhension d’une affaire opposant un fournisseur d’accès à internet à un de ses clients.

Quel service public pour les données de jurisprudence?

1.4

Les règles d’anonymisation

1.4.1

Principes généraux

Certaines juridictions, comme le Défenseur des Droits, pratiquent une anonymisation maximale. Cela consiste à retirer les civilité, nom, prénom, adresse postale, y compris la commune, non seulement des parties au procès, mais également celles des tiers au procès. Cela est sans doute opérationnellement faisable pour un volume modéré de décisions, mais risque de dégrader substantiellement l’intelligibilité du texte résiduel et d’être contesté au motif que le principe de publicité des décisions consacré par la loi n’est plus respecté.

La conception des règles d’anonymisation devrait donc être inspirée par la recherche du juste équilibre entre le droit à la vie privée et le droit à l’information :

Principe de minimisation : le texte doit éviter de mentionner des données à caractère personnel non utiles à sa compréhension

L’anonymisation d’une personne à anonymiser doit porter au moins sur son nom, les autres données à caractère personnel étant anonymisables selon les règles spécifiques à chaque type de juridiction.

La procédure d’anonymisation ne doit pas empêcher les magistrats, avocats et justiciables, ayant droit d’en connaître, d’accéder à la version originale de la décision, dans les mêmes conditions de gratuité et d’accessibilité que la version anonymisée.

1.4.2

Règles spécifiques aux juridictions

Des différences de règles d’anonymisation existent entre les cours suprêmes, que ce soit dans les techniques de substitution de chaines de caractères, l’étendue de leur application aux attributs « indirects » (coordonnées postales et autres) ou la gestion des exceptions. Ainsi le Conseil d’Etat anonymise les nom et prénom (le nom est remplacé par une lettre, le prénom est supprimé) tandis que le Défenseur des Droits retire aussi titre, civilité et adresse postale, y compris le nom de la commune.

La date de naissance d’une personne, qui est une donnée à fort potentiel de ré- identification, devrait être occultée ou remplacée par l’année de naissance, sauf dans certains cas, comme la jurisprudence d’état-civil.

Rappelons que le reste de la jurisprudence est transmis à l’état brut aux éditeurs juridiques, qui l’anonymisent selon leurs règles propres. Il est donc possible que les autres juridictions n’aient pas encore été amenées à formaliser leurs règles spécifiques d’anonymisation.

Quel service public pour les données de jurisprudence?

Un inventaire des règles pourrait donc être dressé pour les différents types de juridictions. A chaque règle devrait être associé le volume de décisions concernées.

La comparaison pourrait être étendue aux autres Etats-membres de l’Union européenne ayant déjà publié de la jurisprudence en données ouvertes, tel que les Pays-Bas.

Proposition

1 :

Dresser

un

inventaire

des

règles

actuelles

d’anonymisation par type de juridiction

 

1.5

Les cas particuliers

1.5.1

Les parties au procès non anonymisables

Dans certains types de contentieux, les noms des parties au procès ne peuvent être retirés sans compromettre immédiatement l’intelligibilité du texte ou contrevenir à la décision-même du juge. C’est le cas :

De la jurisprudence de l'état-civil, notamment les changements de nom ou de prénom ;

Du contentieux électoral : l’acte de candidature à une élection vaut sans doute consentement à ce que toute décision qui lui est relative soit rendue publique sans anonymisation ;

Des décisions rendues par la Haute Autorité à la Transparence de la Vie Publique ou la CNIL ;

Des décisions stipulant la publicité du nom d’une personne physique mise en cause (la publicité a valeur de peine) ;

D’arrêts en matière de propriété intellectuelle en cas de marque éponyme. A titre d’exemple, une action intentée par Inès de la Fressange pour défendre la propriété sur sa marque ne peut pas entrainer anonymisation de la décision rendue, puisque c’est au contraire sa publicité qui est attendue. L’INPI est la juridiction concernée ;

De décisions portant sur des personnes décédées depuis une certaine période (prescriptibilité de l’anonymisation). Cette question se posera dans la perspective d’une reprise de stock ancien de décisions en vue de leur publication.

Quel service public pour les données de jurisprudence?

1.5.2

Les personnes morales à anonymiser

Si, par principe, les personnes morales ne sont pas concernées par Informatique & Libertés, il y a des cas particuliers :

Décision stipulant l’anonymisation de la raison sociale d’une personne morale mise en cause (la publicité du nom vaudrait sanction plus lourde). L’AMF et l’ACPR au moins sont susceptibles de rendre ce type de décision.

Décision portant sur un personne morale dont la raison sociale identifie directement une ou plusieurs personnes physiques (ex « Etablissements Jean Dupont & frères »). Les tribunaux de commerce sont les juridictions concernées.

1.6

L’anonymisation des tiers au procès

1.6.1

Respect de la vie privée et anonymisation

Alors que les tiers au procès ne sont aujourd’hui pas anonymisés, les articles 20 et 21 de la loi République numérique stipulent que les jugements sont mis à disposition dans le respect de la vie privée des «personnes concernées», sans en exclure explicitement les tiers au procès.

Dans la mesure où la publicité des noms des magistrats est motivée pour prévenir tout arbitraire dans le rendu des décisions, on peut défendre l’idée selon laquelle les modalités actuelles de publicité suffisent à apporter cette garantie sans qu’il faille l’étendre à la diffusion des décisions en « open data ».

D’ailleurs, certains pays anonymisent aussi bien les tiers au procès que les parties au procès. En France, la question d’anonymiser les noms des juges dans les affaires de terrorisme ou de grand banditisme se pose aussi.

A l’inverse, une startup qui cherche à faire de l’analyse comparative du rendu des décisions par magistrat pourrait mettre en avant la légitimité d’appliquer aux magistrats ce « scoring » auquels les consommateurs sont habitués pour tout autre secteur ou profession, et contester la validité de l’argument du respect de la vie privée appliqué aux magistrats, alors que leur nom apparait en tout état de cause sur la décision originale délivrable par le greffe, sans qu’il soit assorti d’aucune autre donnée personnelle sur eux.

amont et

l’anonymisation en aval de la chaine de production des décisions, de

Proposition «2 : Privilégier

la

« minimisation »

en

Quel service public pour les données de jurisprudence?

façon à pouvoir traiter les cas particuliers en fonction de la qualité du

façon à pouvoir traiter les cas particuliers en fonction de la qualité du

lecteur ou du contrat de licence de réutilisation

à pouvoir traiter les cas particuliers en fonction de la qualité du lecteur ou du contrat

1.6.2 Finalité et anonymisation

Lors du colloque « La jurisprudence dans le mouvement open data » du 14 octobre, le Président Jean-Paul Jean a rappelé que le traitement des données doit être rattaché à

une finalité précise. « Si l'on s'interroge sur la finalité des bases de données juridiques, il

s'agit certainement de permettre une meilleure connaissance et une meilleure transparence des règles de droit et de leur application à des circonstances de fait. […] La collecte massive d'informations sur la personne des juges, des greffiers ou des avocats, permettant de générer des statistiques sur l'ensemble de leur activité professionnelle et de leurs « performances », voire de leur système de valeurs (nombre d'affaires par an,

n'intègre pas cette

moyenne de temps de traitement, résultats, motivation, etc finalité » 19 .

)

L’absence de telles finalités dans la loi, combinée à l’impossibilité pratique de solliciter le consentement (« opt-in ») de ces tiers au procès amène ainsi à conclure au besoin d’en anonymiser les noms.

Cependant, la comparaison des décisions des juges peut être légitimée précisément parce qu’elles sont rendues au nom du peuple français et celle des performances des avocats par le libre-arbitre du justiciable dans le choix de son avocat. L’Etat a par ailleurs un intérêt légitime à établir des statistiques de l’activité de la Justice pour s’aider au pilotage opérationnel de l’institution. De telles finalités devraient donc être reconnues dans les textes.

Par ailleurs, un avocat peut répugner à ce que son nom apparaisse dans une affaire qu’il a perdue ou parce qu’il se sent menacé. Il devrait se voir accorder un droit d’opposition (« opt-out ») à ce type de finalité.

Proposition 3 : Clarifier les finalités possibles de réutilisation de la

Proposition 3 : Clarifier les finalités possibles de réutilisation de la

jurisprudence

Proposition 3 : Clarifier les finalités possibles de réutilisation de la jurisprudence

Quel service public pour les données de jurisprudence?

2.

LA GESTION DU RISQUE

 

2.1

L’analyse d’impact

2.1.1

Champ d’application

L’analyse d'impact relative à la protection des données, aussi appelée « étude d’impact sur la vie privée » (EIVP) par la CNIL, est obligatoire dès lors que le traitement « est

susceptible d'engendrer un risque élevé pour les droits et libertés des personnes

physiques », et en particulier en cas de « traitement à grande échelle de catégories

particulières de données visées à l'article 9, paragraphe 1, ou de données à caractère personnel relatives à des condamnations pénales et à des infractions visées à l'article 10 ».

Une partie au moins de la jurisprudence est donc assujettie à une analyse d’impact à compter de l’entrée en vigueur du règlement, en 2018, avec une criticité sans doute plus grande pour les juridictions pénales que pour les juridictions civiles.

La loi République numérique reprend cette disposition, dans ses articles 20 et 21, qui

stipulent : « Cette mise à disposition du public est précédée d’une analyse du risque de

ré-identification des personnes », ce qui revient à avancer d’un an environ l’application de l’article 35 du RGDP (l’analyse d’impact sur les données personnelles) à la jurisprudence.

Il reste toutefois à déterminer si l’ananlyse d’impact incombe à chaque juridiction, à leur tête juridictionnelle, Cour de Cassation ou Conseil d’Etat.

Proposition

4 :

Désigner

qui,

de

la

juridiction

ou

de

la

tête

juridictionnelle, porte la responsabilité du traitement, d’une part, et de

l’analyse d’impact, d’autre part

 

2.1.2

Quelle méthodologie?

 

L’analyse d’impact doit comprendre la partie descriptive du système de traitement des données qu’on trouve déjà dans l’actuelle déclaration CNIL. Mais elle doit comprendre en outre une partie analytique, dans laquelle le responsable de l’étude expose sa vision des risques et des impacts possibles sur la vie privée.

Des méthodologies d’analyse des risques informatiques existent. MEHARI (MEthode HArmonisée d’évaluation du RIsque), développée par le CLUSIF, un club de sécurité, détaille l’ensemble des risques informatiques, sans bien rendre ceux liés aux données personnelles. EBIOS, développée par l’Agence Nationale pour la Sécurité des Systèmes d’Information (ANSSI) est plutôt centré sur la cybersécurité.

Quel service public pour les données de jurisprudence?

Au Royaume-Uni, l’Information Commissioner’s Office (ICO), l’homologue de CNIL, a procédé en 2013 à une étude comparative des méthodologies existantes de gestion de projet ou de gestion des risques 20 .

Plus récemment, l’équipe Privatics de l’INRIA a publié sa méthodologie PRIAM 21 , conçue spécifiquement pour le RGDP, et qui distingue 7 composants :

Le système, les parties prenantes, les données, pour la partie descriptive;

Les sources du risque, les faiblesses (« privacy weaknesses »), les événements redoutés (« feared events »), les dommages (« privacy harms »), pour la partie consacrée à l’analyse d’impact proprement dite.

La jurisprudence contient potentiellement une très grande variété de données personnelles, à une échelle bien supérieure à ce que connaissent les autres organismes concernés, en particulier les entreprises du secteur privé. Cela peut justifier la définition d’une méthodologie spécifique à l’ouverture de la jurisprudence.

Proposition 5 : Définir une méthodologie d’analyse d’impact unique et

Proposition 5 : Définir une méthodologie d’analyse d’impact unique et

applicable à l’ensemble des juridictions

Proposition 5 : Définir une méthodologie d’analyse d’impact unique et applicable à l’ensemble des juri dictions

2.1.3 Le contenu de l’analyse

Selon l’article 35 du RGDP, « l'analyse contient au moins:

a) une description systématique des opérations de traitement envisagées et des

finalités du traitement, y compris, le cas échéant, l'intérêt légitime poursuivi par le

responsable du traitement;

b) une évaluation de la nécessité et de la proportionnalité des opérations de

traitement au regard des finalités;

c) une évaluation des risques pour les droits et libertés des personnes concernées

conformément au paragraphe 1; et

d) les mesures envisagées pour faire face aux risques, y compris les garanties,

mesures et mécanismes de sécurité visant à assurer la protection des données à caractère personnel et à apporter la preuve du respect du présent règlement, compte tenu des droits et des intérêts légitimes des personnes concernées et des autres personnes affectées ».

Ces dispositions sont génériques. Les critères de ‘finalité’ et de ‘proportionnalité’, décrits aux alinéas a) et b) s’adressent plus particulièrement au secteur commercial.

20 Privacy impact assessment and risk management”, Trilateral Research & Consulting, rapport pour l’ICO, 4 mai 2013, https://ico.org.uk/media/1042196/trilateral-full-report.pdf 21 PRIAM: A Privacy Risk Analysis Methodology, Sourya Joyee De, Daniel Le Métayer, PRIVATICS - Privacy Models, Architectures and Tools for the Information Society - Inria Grenoble, https://hal.inria.fr/hal-01302541

Quel service public pour les données de jurisprudence?

S’agissant de jurisprudence, l’analyse d’impact renverra a priori sur les missions de service public inscrites dans la loi.

L’attention de l’analyste devra porter sur l’alinéa c). Les risques d’individualisation, de corrélation et d’inférence mentionnés plus haut méritent sans doute d’être décrits dans toute analyse d’impact liée à l’ouverture de la jurisprudence. Par exemple, les juridictions judiciaires devraient logiquement faire ressortir un risque de ré- identification plus élevé que les juridictions administratives, en raison d’une longueur moyenne des texte de décision également plus élevée. En cas d’anonymisation automatisée, l’analyse devra faire apparaître la marge d’erreur constatée sur un corpus de jurisprudence de référence. Les défauts d’anonymisation les plus caractéristiques mériteront alors d’être documentés à titre d’exemple.

Toujours selon la juridiction, cette analyse des risques pourrait être assortie d’une analyse, qualitative, des préjudices. Par exemple, un défaut d’anonymisation d’une décision d’un tribunal de prud’hommes pourrait, selon le contentieux, compromettre les chances d’une personne licenciée de retrouver un emploi.

Au titre de l’alinéa d), l’analyste devra documenter la chaine de production de la jurisprudence jusqu’à anonymisation, parce que les mesures de sécurité visant à assurer la protection des données personnelles peuvent intervenir à différentes étapes de la chaine selon la juridiction. Citons en particulier :

1. Le recours à un outil d’aide rédactionnelle, à la genèse de la décision ;

2. l’application d’une guide de bonnes pratiques de rédaction (stylistique), analogue dans son principe au guide de légistique de la DILA ;

3. la pré-anonymisation d’office, par le juge ou le greffier, par suppression de mentions inutiles ou emploi de périphrases 22 ;

4. l’annotation manuelle, à même le texte de la décision, par surlignage ou par un outil d’annotation sémantique, des fragments à masquer (par caviardage) dans une version anonymisée ;

5. la pré-anonymisation faisant suite à demande de consentement de publicité, puis son refus par le justiciable 23 ;

6. l’application d’une technique d’anonymisation automatisée (cf § 2.2) ;

7. la retouche manuelle de décisions préalablement anonymisées automatiquement, ou annotées avec des fragments à caviarder ;

22 Au Conseil d’Etat, la plupart des rapporteurs publics pré-anonymisent les décisions, en surlignant tous les termes qui permettraient selon eux de ré-identifier la personne

23 En Italie, on demande durant l’audience aux parties si elles acceptent l’anonymisation ou pas

Quel service public pour les données de jurisprudence?

8.

le cas échéant, le chiffrement intégral de la décision hors métadonnées (cf §

2.2.3).

D’autre part, il faut sans doute compter parmi les mesures de sécurité une procédure périodique de contrôle qualité. Le corpus de référence sur la base duquel a été évalué un taux de défaut d’anonymisation n’est pas nécessairement statistiquement représentatif des flux ultérieurs de décisions. Un contrôle périodique doit s’assurer que les hypothèses formulées initialement, notamment la marge d’erreur, restent valables.

Les mesures de sécurité assurées par des tâches manuelles devront être mises en évidence ; si l’exercice du jugement humain est un indice de présomption de bonne qualité d’anonymisation, il met en jeu la mobilisation des ressources humaines. Le cas échéant, il faudra rapporter la qualité d’anonymisation au délai de publication 24 .

2.1.4 Les modalités de publication de l’analyse

L’article 35 du RGDP ne stipule pas explicitement que l’analyse d’impact doit être publiée, ni même documentée, mais cette analyse d’impact étant motivée par la perception d’un risque élevé sur la vie privée, il est logique qu’elle soit portée à la connaissance du public.

Plusieurs questions pratiques doivent encore être traitées. Il faut définir :

si le rapport intégral, y compris ses éventuelles annexes, a vocation à être publié en « open data », ou si seule une synthèse doit l’être ;

si l’analyse d’impact doit distinguer le risque portant sur l’ouverture des décisions du stock et celui portant sur l’ouverture des décisions futures, à supposer que l’ouverture de la jurisprudence porte rétroactivement sur les décisions passées (cf § 6.2) ;

si elle doit faire l’objet de révisions périodiques, et dans cette hypothèse, selon quelle fréquence ;

si elle est publiée par le responsable du traitement, par la DILA, ou les deux à la fois.

Proposition

6 :

Définir

un

modèle

opérationnel

de

publication

de

l’analyse d’impact

   

24 Un délai de publication excessif, et surtout variable, pourrait causer un dommage aux réutilisateurs licenciés, notamment aux éditeurs juridiques, même si ce risque-là ne relève bien évidemment pas de l’analyse d’impact

Quel service public pour les données de jurisprudence?

2.2

Les techniques de réduction du risque de ré-identification

La meilleure façon de réduire le risque de ré-identification des personnes est d’anticiper ce risque lors même de la rédaction. Certaines mentions à pouvoir d’identification mais non nécessaires au besoin de rédaction du jugement pourraient être évitées. D’autres pourraient être remplacées par des périphrases (« la victime ») ou des anaphores (« il », « celui-ci ») ou renvoyées à des références bibliographiques protégées.

Proposition 7 : Engager un projet de recherche avec un laboratoire de linguistique en vue d’une solution de reformulation automatique d’un

texte selon le principe de minimisation

 

Cependant, dans la plupart des juridictions, en particulier du premier degré, la complexité du processus de production des décisions et la modicité des moyens ne permettent pas d’envisager un changement de procédure à court ou moyen terme. A défaut d’une anonymisation à la source, on envisagera une anonymisation en aval, juste avant la publication. Celle-ci peut encore être faite à la main, en automatique ou en semi-automatique.

Dans un mode automatique, différentes techniques permettent de réduire le risque de ré-identification. Le choix et la stratégie d’utilisation de ces techniques par toute juridiction conditionne donc les résultats de son étude d’impact sur la vie privée.

2.2.1

Tokenisation, randomisation et hachage

Les termes de tokenisation et de randomisation sont issus de l’informatique. La tokenisation est le procédé permettant de remplacer une donnée critique par un élément équivalent qui n’aura aucune valeur intrinsèque ou signification exploitable une fois sortie du système (source Wikipedia) tandis que la randomisation génère des valeurs aléatoires.

Une tokenisation désignera généralement la premier personne par un X, la suivante par un Y, etc… ou par un pseudonyme issu d’une table de correspondance choisi selon l’ordre d’apparition des protagonistes dans le texte de la décision.

Une randomisation ne respecte pas d’ordre d’apparition mais peut fabriquer un pseudonyme par un mélange de chiffres et de caractères généré à la volée.

Le hachage est une fonction qui, à partir d’une donnée, calcule une empreinte servant à identifier rapidement, bien qu'incomplètement, la donnée initiale 25 . Le calcul de la fonction de hachage est facile et rapide tandis que le calcul de sa fonction inverse est infaisable par calcul et donc non calculable en pratique. Cette technique est notamment

Quel service public pour les données de jurisprudence?

employée pour masquer le numéro de carte bancaire dans la transmission d’instructions de paiement en ligne. Cette technique est facile à appliquer au niveau de la donnée 26 .

2.2.2 Analyse sémantique et auto-apprentissage

Pour modifier une donnée patronymique ou d’adresse en plein texte, il faut tout d’abord que le système la détecte, en procédant à une reconnaissance des entités nommées. Une règle simple consiste à considérer tout nom propre placé derrière une civilité ou un titre comme celui d’une personne. Tout terme avec majuscule et présent dans une liste de prénoms et immédiatement suivi d’un autre nom propre présume une identification de personne physique 27 . Une expression « demeurant au » annonce une adresse. Ces règles, d’analyse sémantique, doivent être affinées, pour tenir compte des rôles des protagonistes dans l’affaire et des règles spécifiques à une juridiction ou à type de contentieux.

L’auto-apprentissage (« machine-learning ») consiste pour l’ordinateur à substituer ce traitement sémantique par une analyse statistique. A partir d’un corpus de décisions brutes et de sa version anonymisée, le système peut, en utilisant des techniques d’intelligence artificielle, en déduire une logique d’anonymisation pour toute nouvelle décision 28 . La décision anonymisée participe ainsi du prochain raisonnement statistique. Bien entendu, toute retouche manuelle d’une décision anonymisée automatiquement y participe aussi. Plus le volume de décisions s’accroit, plus l’analyse statistique s’affine et meilleur est le résultat de l’anonymisation.

Pour que cet auto-apprentissage fonctionne bien, il doit démarrer à partir d’un corpus pré-anonymisé statistiquement représentatif. Il y faut du volume et un respect des proportions entre juridictions car la longueur moyenne et le mode de rédaction des décisions détermine le degré de complexité de l’exercice. Si l’on retient un échantillon de 1000 textes, la charge d’anonymisation devient trop lourde si elle est faite à la main. On peut recourir à la place à une anonymisation par analyse sémantique suivie d’une retouche manuelle. Une mécanique d’auto-apprentissage peut ensuite être enclenchée.

26 Noter que si le « hash » ne permet pas de retrouver directement la donnée en clair, il vaut signature électronique unique de celle-ci, et, appliqué à l’identifiant d’une personne, ne garantit pas que celle-ci ne puisse jamais être ré- identifiée par recoupement avec tout autre jeu de données

27 Cette règle apparemment simple peut cacher de nombreuses chausses-trapes : par exemple, le système pourrait interpréter les mots Charlotte Poisson comme une suite de deux noms communs plutôt que comme un patronyme, surtout s’il devait y manquer les majuscules, et par conséquent les laisser apparents dans le texte. Les prénoms rares, inconnus de tout référentiel, les prénoms étrangers composés sans trait d’union, comme en portugais (« José Manuel »), les noms étrangers composés sans trait d’union, comme en espagnol (« Vargas Llosa »), en portugais, en arabe, l’absence d’un blanc entre deux mots, l’absence de majuscule, et a fortiori toute faute d’orthographe, sont autant d’exemples qui vont induire en erreur le moteur d’analyse sémantique

28 Plus de détails sur les modalités pratiques et les enjeux méthodologiques sur : https://medium.com/@supralegem/la-

Quel service public pour les données de jurisprudence?

Il reste que le recours à des techniques d’auto-apprentissage introduit de la complexité et pourrait susciter une critique en défaut de transparence. Comment justifier auprès d’un justiciable que le traitement d’anonymisation sur une décision le concernant dépend du volume de décisions déjà analysées et qu’il aurait donné un meilleur résultat un an plus tard? Il y a là une exigence de pédagogie et une exigence de transparence de l’algorithme.

Proposition 8 : Publier en open source le code informatique de toute

Proposition 8 : Publier en open source le code informatique de toute

technique d’anonymisation par auto-apprentissage

Proposition 8 : Publier en open source le code informatique de toute technique d’anonymisation par auto

2.2.3 Le chiffrement

Une technique de chiffrement d’une décision (non anonymisée) permettrait de la masquer dans son intégralité et de ne la rendre lisible que d’une personne habilitée munie d’une clef de déchiffrement.

Cette technique, qui s’applique à un fichier, pourrait être utilisée pour des décisions qui, après anonymisation automatique et examen manuel, s’avèreraient entrer dans l’un des cas suivants :

La décision se réfèrerait à des dispositions législatives interdisant sa communication ou sa publication 29 ;

La décision a été annulée par la Cour de Cassation ;

Le contenu du texte deviendrait inintelligible après une anonymisation poussée des données personnelles. Le chiffrement pourrait être décidé par exemple pour faire droit à une demande de justiciable ayant invoqué son droit à l’opposition suite à un défaut d’anonymisation le concernant.

Dans tous les cas, les métadonnées pourraient en revanche rester en clair, pour laisser possibles d’éventuels traitements statistiques.

Le chiffrement pourrait être aussi un moyen d’optimiser le besoin de stockage des décisions de justice, qui devront être conservées dans leur version originale aussi bien que dans leur version anonymisée, et de sécuriser la gestion des liens entre celles-ci. Une solution pourrait consister à ne stocker les textes que dans leur version originale mais après chiffrement, de stocker les tables de correspondances entre noms réels et pseudonymes également sous forme chiffrée, et à provoquer la pseudonymisation à la volée, selon que le lecteur est une personne citée ou non dans ce texte. Elle pourrait

29

Par

exemple,

certaines

décisions

rendues

par

les

tribunaux

de

commerce :

Quel service public pour les données de jurisprudence?

faire l’objet d’un projet de recherche à conduire par une laboratoire de cryptologie sous le parrainage de la CNIL.

Proposition 9 : Engager , sous l’égide d’Etalab, un projet de recherche sur

Proposition 9 : Engager, sous l’égide d’Etalab, un projet de recherche sur

l’apport de la cryptographie à l’anonymisation

9 : Engager , sous l’égide d’Etalab, un projet de recherche sur l’apport de la cryptographie

2.2.4 La mesure de qualité de l’anonymisation automatisée

Quand l’anonymisation est effectuée de manière automatisée, par un outil d’analyse sémantique, le risque peut être quantifié sous forme de marge d’erreur. Cette marge peut être estimée par confrontation d’un corpus de départ anonymisé entièrement à la main avec le corpus issu d’une anonymisation automatique du même corpus brut.

La méthodologie de mesure de la qualité doit être spécifiée. En matière d’analyse sémantique, il est d’usage de distinguer le taux de rappel et le taux de précision 30 .

Le taux de rappel mesure l’exhaustivité de l’anonymisation, c’est-à-dire par soustraction le taux d’omission. Le calcul de ce taux doit tenir compte du nombre de mentions d’une même personne dans le texte : si elle est mentionnée 20 fois, et que l’anonymisation automatique s’est appliquée 19 fois, la personne est quand même identifiée.

Le taux de précision mesure la justesse de l’anonymisation, ou par soustraction, le taux de sur-anonymisation. L’anonymisation de tiers au procès, notamment des experts, et de personnes morales ou de leurs représentants légaux, sont deux cas de sur- anonymisation très plausibles. La sur-anonymisation dégrade l’intelligibilité de la décision. Le calcul du taux de précision doit tenir compte de la cohérence des pseudonymes à travers le texte : si une personne mentionnée 20 fois est remplacée 19 fois par un X et une fois par un Y, l’anonymisation faillit au test de précision.

Le taux de précision reste toutefois moins critique que le taux de rappel.

Les règles de paramétrage du moteur d’analyse sémantique pourraient devoir être raffinées jusqu’à ce qu’une dernière itération de l’anonymisation automatisée produise un taux d’omission en-deçà d’un seuil de « risque élevé » au sens de l’article 36 du RGDP.

Proposition 10 : Elaborer un plan d’assurance - qualité de l’anonymisation

Proposition 10 : Elaborer un plan d’assurance-qualité de l’anonymisation

des décisions de justice

Proposition 10 : Elaborer un plan d’assurance - qualité de l’anonymisation des décisions de justice

Quel service public pour les données de jurisprudence?

3.

LA CHAINE DE RESPONSABILITÉS

3.1

La responsabilité de la production

3.1.1

L’analyse d’impact

L’article 4 du RGDP définit le responsable du traitement comme « la personne physique ou morale, l'autorité publique, le service ou un autre organisme qui, seul ou conjointement avec d'autres, détermine les finalités et les moyens du traitement ». S’agissant de jurisprudence, il convient de déterminer quelle « autorité publique », « service » ou « autre organisme », au singulier ou au pluriel, doit (doivent) porter la responsabilité, juridique et opérationnelle, de l’analyse d’impact.

En principe, cette responsabilité n’échoit pas à la DILA, dont la mission est limitée à la diffusion de l’information publique, non pas au contrôle de sa qualité. Elle ne devrait pas être plus garante de la qualité de la jurisprudence publiée, et notamment de sa qualité d’anonymisation, que l’Autorité des Marchés Financiers, par exemple, n’est garante de la qualité des prospectus d’OPCVM que les sociétés de gestion d’actifs lui remettent. La responsabilité du traitement se situe donc plutôt du côté juridictionnel.

Cette responsabilité peut-être exercée par chaque tribunal, les cours d’appel, la chancellerie, ou plus vraisemblablement la Cour de Cassation, pour ce qui relève de l’ordre judiciaire. En effet, la base de données administrée par son service de documentation et d’études inclut déjà « les décisions présentant un intérêt particulier

rendues par les autres juridictions de l'ordre judiciaire » 31 . La Cour pourrait donc voir

son rôle étendu aux décisions du fond. Le Conseil d’Etat recevrait la même responsabilité pour l’ordre administratif.

Si l’argument d’un risque « élevé », au sens de l’article 35 du RGDP, peut être facilement invoqué pour les corpus de jurisprudence pénale, et donc exiger du responsable de traitement d’effectuer une analyse d’impact, il ne va pas de soi que toutes les juridictions doivent s’y soumettre. Un souhait d’anonymisation maximale peut être présumé pour une décision relative à une demande de déréférencement. A l’inverse, un souhait de publicité peut être présumé pour le justiciable qui vient défendre auprès de l’INPI ses droits sur une marque ou un brevet. Il convient donc de faire l’inventaire des juridictions ou des natures de contentieux assujetties à cette analyse.

Si chacune des cours suprêmes, et sans doute la Cour des Comptes et l’INPI, ont la capacité opérationnelle nécessaire pour être « responsable de traitement » et ont donc une charge d’analyse d’impact de l’ouverture de leur jurisprudence, il convient de définir si chaque juridiction, y compris du premier degré, devra en faire autant pour ses

31 article R433-3 du code de l’organisation judiciaire

Quel service public pour les données de jurisprudence?

décisions propres, ou si, au contraire, les juridictions d’appel et/ou la chancellerie doivent exercer ce rôle. La question se pose également pour les Chambres Régionales des Comptes, pour lesquelles la Cour des Comptes pourrait être responsable du traitement. Quant aux Autorités Administratives Indépendantes (AAI), leur indépendance les amènera vraisemblablement à faire leur propre analyse d’impact 32 , même si la publication de leur jurisprudence est prise en charge par la DILA, comme c’est déjà le cas pour la CNIL.

Quel qu’en soit l’organe responsable, ce rapport d’analyse publié pourra alors être utilisé comme élément d’appréciation par tout tribunal jugeant une plainte d’un justiciable pour une décision le concernant et faisant apparaitre son identité en clair ou ayant permis sa ré-identification.

Proposition 11 : Faire de l’analyse d’impact un outil de transparence et

Proposition 11 : Faire de l’analyse d’impact un outil de transparence et

de pédagogie du risque de défaut d’anonymisation

11 : Faire de l’analyse d’impact un outil de transparence et de pédagogie du risque de

3.1.2

Enfin, rappelons que l’article 6 de la Loi République numérique dispose que

en ligne les règles définissant les principaux traitements

algorithmiques utilisés dans l'accomplissement de leurs missions lorsqu'ils fondent des

décisions individuelles » 33 . Si l’article ne vise pas la jurisprudence, et si l’anonymisation ne fonde pas en soi une décision individuelle, la publication de la règle d’anonymisation pourrait constituer une bonne pratique, y compris par toute juridiction non astreinte à une analyse d’impact du fait d’un faible risque de la publication de sa jurisprudence à porter atteinte à la vie privée.

l’administration « publie[

]

L’anonymisation

D’autres

notamment :

points

de

droit

se

posent

également

sur

le

sujet

de

l’anonymisation,

Si la loi République numérique prévoit, dans ses articles 20 et 21, une analyse du risque de ré-identification des personnes, elle ne dit pas si l’Etat est responsable de tout défaut d’anonymisation et si cette analyse du risque est opposable à un justiciable faisant valoir un préjudice qui en serait la conséquence 34 .

La sous-traitance en traitement de données personnelles se développe. On parle déjà de DPaaS, pour « Data Protection as a Service ». Si l’Etat devait choisir de sous-traiter l’anonymisation de la jurisprudence à un tiers de confiance, comment se distribuerait la responsabilité juridique de ce traitement entre eux

32 pour autant qu’elles aient toutes des pouvoirs de sanction

34

Blog

de

M.

Benesty,

Supralegem,

Quel service public pour les données de jurisprudence?

deux?

3.1.3

Les métadonnées

La responsabilité du renseignement des métadonnées devrait être portée par la DILA. Celle-ci doit être garante de la qualité et la cohérence des métadonnées ECLI qu’elle transmet au portail européen ECLI.

C’est également elle qui devrait contrôler les métadonnées complémentaires éventuelles (cf § 4.3.5).

Les métadonnées, ECLI ou non, stockées dans un triple store ou tout autre type de base de données devraient être protégées techniquement pour empêcher toute écriture ou modification par un réutilisateur.

3.2

La responsabilité de la diffusion

3.2.1

La responsabilité de la DILA

La responsabilité de la primo-diffusion est portée par la DILA.

Les contrats de licence actuels avec les éditeurs juridiques devront être amendés ou remplacés à mesure que les flux de jurisprudence non anonymisée seront remplacés par une mise à disposition obéissant à un nouveau format technique et à un nouveau protocole de sécurité, conforme au Référentiel Général de Sécurité.

Même si la mise à disposition des données est gratuite, la signature d’une licence adaptée aura pour mérite d’assurer la traçabilité des réutilisations, et d’imposer des obligations contractuelles aux réutilisateurs (cf § 3.3.2).

3.2.2

La responsabilité d’Etalab

La mission Etalab publie des fonds jurisprudentiels comme tout autre jeu de données sous une Licence Ouverte, une licence libre qu’elle a créée en 2011, et qui n’impose pour contraintes que la reconnaissance de paternité et la mention d’une date de dernière mise à jour.

Le modèle actuel de diffusion d’Etalab est adapté à un usage occasionnel, tandis que celui de la DILA est adapté à un usage régulier, qui exige qualité de contenu et continuité de service. Si Etalab devait envisager un redéploiement des silos actuels en une base jurisprudentielle unifiée et conforme à l’ECLI, de nature à servir les besoins des réutilisateurs professionnels, elle devra proposer une licence dont les termes soient cohérents avec ceux de la licence que la DILA imposera à ces propres réutilisateurs.

Quel service public pour les données de jurisprudence?

3.2.3 Droits et devoirs des réutilisateurs

Si les réutilisateurs licenciés d’aujourd’hui sont tous des éditeurs juridiques de droit français, les réutilisateurs licenciés de demain devraient pouvoir être des personnes physiques ou morales domiciliées dans une juridiction relevant du champ d’application territorial de l’article 3 du RGDP. Les obligations spécifiques aux articles 20 et 21 de la loi République numérique pourraient être reprises dans leur contrat de licence.

Il ne devrait pas y avoir non plus de restriction liée au statut professionnel du réutilisateur.

Proposition 12 : Ouvrir le droit de réutilisation de la jurisprudence sur le champ territorial

Proposition 12 : Ouvrir le droit de réutilisation de la jurisprudence sur le champ territorial le plus large possible et sans restriction quant au statut

professionnel du réutilisateur

sur le champ territorial le plus large possible et sans restriction quant au statut professionnel du

La licence de réutilisation devrait laisser aux réutilisateurs l’opportunité d’enrichir les métadonnées de la jurisprudence avec les leurs propres, notamment des métadonnées de catégorisation des décisions, dans le cadre d’un service commercial payant. Une licence de type ODbL 35 pourrait avoir pour résultat, a contrario, d’évincer les éditeurs juridiques de leur marché.

Les réutilisateurs devraient avoir le choix entre une licence de réutilisation de la jurisprudence anonymisée et une autre de réutilisation de jurisprudence originale avec obligation d’anonymiser eux-mêmes, comme c’est déjà le cas actuellement. Il s’agit en effet d’assurer une équité de traitement des entreprises vis-à-vis du RGDP que les données personnelles traitées soient de nature juridique ou non. La licence de réutilisation de jurisprudence originale, non anonymisée, assujettira le réutilisateur au RGDP et, ipso facto, à l’analyse d’impact de son article 35.

Le réutilisateur anonymiserait les données personnelles dans les règles du droit commun. Il fixerait lui-même son curseur entre traitement automatisé et traitement manuel, assumerait ses choix de type de traitement automatisé, de logiciel et/ou de prestataire. La même décision de justice publiée par deux éditeurs juridiques concurrents pourrait ainsi marquer des différences, à l’affichage, notamment par :

la capacité mnémonique des pseudonymes,

l’usage

de

conventions

protagonistes,

de

police

ou

de

couleurs

pour

distinguer

les

le retrait de fragments de texte en vertu du principe de minimisation,

Quel service public pour les données de jurisprudence?

la non-suranonymisation des tiers au procès et des représentants légaux de personnes morales.

Il va de soi que la ré-anonymisation par le réutilisateur ajoute au coût économique de la valorisation de la donnée, mais celui-ci doit rester libre de faire de l’anonymisation par lui-même des décisions de justice un avantage compétitif.

En revanche, le réutilisateur de jurisprudence originale pourrait être soumis aux mêmes règles s’appliquant aux diffuseurs publics : analyse d’impact, gestion des habilitations aux données, sécurisation technique des bases…

Le réutilisateur de la jurisprudence anonymisée pourrait se voir soumis à des obligations inscrites à son contrat de licence, en particulier :

L’abstention

de

pseudonymisées ;

toute

tentative

de

-identification

des

personnes

La désindexation des décisions annulées par la Cour de Cassation, et la restriction de leur affichage au seul cadre d’une chaine de contentieux affichant aussi la décision d’annulation ;

La mise à disposition en ligne d’un formulaire de demande de rectification ou de suppression de données personnelles ;

L’avertissement de la DILA de tout défaut d’anonymisation constaté ;

La signature d’une licence comportant les mêmes obligations pour toute réutilisation par un client de deuxième niveau ; cela vaudrait notamment pour toute réutilisation de données de jurisprudence par une entreprise de presse.

3.3

La responsabilité de la CNIL

3.3.1

Consultation préalable

La CNIL pourrait être amenée à retarder l’ouverture de la jurisprudence d’un responsable de traitement l’ayant sollicitée pour cause de risque élevé, en vertu de l’article 36 du RGDP. Dans la pratique, elle pourrait être amenée à contester les choix d’algorithmes d’anonymisation. A l’inverse, son acceptation tacite des mesures prises pour réduire le risque ne semble pas engager sa responsabilité.

Quel service public pour les données de jurisprudence?

3.3.2

Obligations des rediffuseurs

D’autre part, à travers le processus de mise à disposition (cf § 5.4.5), les rediffuseurs privés récupèreront des décisions de justice anonymisées moyennant une marge d’erreur ressortant à l’analyse d’impact du type de juridiction concernée. La CNIL devra préciser si, ou à compter de quel niveau de risque, les rediffuseurs sont également soumis à une analyse d’impact.

Proposition 13 : Editer un guide de bonnes pratiques à l’intention des éditeurs juridiques et autres réutilisateurs potentiels, sur le modèle des

« packs de conformité » sectoriels existants

 

4.

LES MÉTADONNÉES DE LA JURISPRUDENCE

4.1

L’enjeu

Si l’ouverture de la jurisprudence participe du mouvement général d’ouverture des données, la notion mérite d’être détaillée. Elle recouvre d’une part l’accès aux données, ou « open access », qui matérialise l’information qui s’affiche sur un écran et qu’on peut lire, et la réutilisation des données, ou « open data », qui promet de nouveaux services à valeur ajoutée aux citoyens et consommateurs.

Essentiellement textuelle et non structurée, la jurisprudence est particulièrement peu propice à la réutilisation. C’est là qu’interviennent les métadonnées.

4.2

Etat des lieux de la normalisation des métadonnées

4.2.1

L’ECLI

Le European Case Law Identifier (ECLI) est une norme communautaire de description des métadonnées de la jurisprudence. Son cadre fonctionnel a été fixé en 2011 par le Conseil de l’Union européenne 36 . Chaque Etat-membre est libre d’adopter l’ECLI.

L’ECLI a été adopté par la Cour de Justice de l'Union Européenne (CJUE) et l'Office Européen des Brevets (OEB).

36 Conclusions du Conseil préconisant l'introduction d'un identifiant européen de la jurisprudence et un ensemble minimal de métadonnées uniformes pour la jurisprudence, http://eur-lex.europa.eu/legal- content/FR/ALL/?uri=CELEX:52011XG0429(01), Office des Publications de l’Union européenne, consulté le 5 novembre 2016

Quel service public pour les données de jurisprudence?

La France fait partie des pays l’ayant adopté 37 , et le Secrétariat général du Gouvernement a désigné la DILA comme coordinateur national ECLI. Les cours suprêmes (Conseil Constitutionnel, Cour de Cassation, Conseil d’Etat) identifient déjà leurs décisions avec un ECLI. Conseil Constitutionnel et Conseil d’Etat fabriquent eux-mêmes l’identifiant ECLI de leurs décisions, avant de les transmettre par fichier à la DILA, qui les enregistre dans ses bases CONSTIT et JADE respectivement. Quant à la Cour de Cassation, elle identifie ses arrêts propres, dans sa base JURINET, par un identifiant interne, le numéro d’affaire, puis fournit les éléments de base (mais pas le numéro de pourvoi) à la DILA, qui construit ensuite l’ECLI 38 .

Ces décisions sont affichées, après anonymisation, avec leur ECLI, aussi bien sur le portail propre de chaque juridiction que sur le portail Légifrance.

Dans tous les cas, la DILA complète les métadonnées obligatoires associées aux ECLI, et fournit les décisions ainsi enrichies à la Direction Justice de la Commission européenne, selon le format XML attendu. Ces décisions sont ainsi disponibles sur le portail européen 39 .

La France ne fait pas partie du groupe d’Etats-Membres constitué autour du projet « Building on ECLI » lancé en octobre 2015 pour une durée maximale de 2 ans 40 .

Proposition 14 : Faire participer la France à la poursuite des travaux de

Proposition 14 : Faire participer la France à la poursuite des travaux de

normalisation européenne sur l’ECLI

Proposition 14 : Faire participer la France à la poursuite des travaux de normalisation euro péenne

4.2.2

L’ELI

La Commission Européenne a lancé peu après, en 2012, l’initiative d’une norme de législation (European Legislation Identifier, ou ELI) également facultative pour les Etats-membres. La France fait partie des 6 Etats-Membres ayant déjà adopté l’ELI.

La norme ELI consiste à affecter chaque texte législatif d’un identifiant unique à l’échelle européenne, au format d’une URI, pour une accessibilité sur le Web sémantique, et associé d’attributs, ou métadonnées, qui décrivent les caractéristiques du texte 41 . Chaque article d’un texte législatif est également doté de son propre ELI, mais n’a pas de métadonnées associées.

Les versions initiales des textes généraux de la législation française, stockées dans la base JORF, sont d’ores et déjà dotées d’un ELI, et ce, rétrospectivement jusqu’à 2002.

38 La DILA a pu reconstituer des ECLI rétroactivement jusqu’en 2008, mais pas au-delà, car le numéro d’affaire n’était pas fourni dans le fichier remis jusqu’alors

Quel service public pour les données de jurisprudence?

La normalisation ELI de la législation consolidée (stockée dans la base LEGI), notamment des Codes, est en cours.

Les métadonnées de la législation communautaire sont stockées dans un triple store RDF, appelé le CELLAR 42 , sous la responsabilité de l’Office des Publications de l’Union européenne 43 , équivalent communautaire de la DILA. RDF est le langage de base du Web sémantique, développé par le W3C. En annotant des documents non structurés, RDF permet une certaine interopérabilité entre des applications échangeant de l'information non formalisée et non structurée, comme les décisions de justice, sur le Web 44 .

En France, la mise à la norme ELI s’effectue par l’encapsulation d’étiquettes RDFa dans les pages HTML des textes dans leur version initiale. L’utilisateur de Légifrance peut faire un clic-droit et « afficher source » pour découvrir les étiquettes ELI non apparentes dans la page HTML, ainsi qu’il est montré ci-dessous sur l’exemple de la loi République numérique.

- dessous sur l’exemple de la loi République numérique. La conversion des métadonnées HTML/RDFa au format

La conversion des métadonnées HTML/RDFa au format RDF et leur interopérabilité de la législation française avec la législation communautaire a été démontrée lors de la

43 Sur le portail Eur-lex, géré par l’Office, les métadonnées d’un texte apparaissent dans l’onglet « Informations sur le

document »,

42

Plus

de

détails

sur

dans

comme

l’exemple

suivant :

Quel service public pour les données de jurisprudence?

conférence « Access to and Reuse of EU Legal Information Conference » organisée par l’Office des publications de l’Union européenne le 21 mars 2016 45 .

Les travaux de normalisation de l’ELI et de l’ECLI sont conduits en parallèle par des groupes de travail différents. Les relations « 1 loi peut être à l’origine de N décisions de justice » ou « 1 décision de gestion peut invoquer N lois » n’ont pas été modélisées à ce jour. L’OEB et la CJUE versent leur jurisprudence respective depuis peu dans le CELLAR, où elles constituent deux « silos » séparés de la législation 46 .

4.3

La description des décisions

4.3.1

Structure de l’identifiant ECLI

L’annexe 1 des « Conclusions du Conseil préconisant l'introduction d'un identifiant européen de la jurisprudence et un ensemble minimal de métadonnées uniformes pour la jurisprudence » stipule que l’ECLI doit être constitué des cinq éléments suivants :

a) l'abréviation «ECLI» ;

b)

le code «pays» du pays ou de l'organisation sous la compétence duquel la décision de

justice est rendue, soit « FR » pour la France ;

4

autres décisions mais à aucun texte. Dans la base propre de l’OEB, qui n’est pas à la norme ECLI, les liens vers la

législation de cette même décision sont restitués, dans le

https://www.epo.org/law-practice/case-law-appeals/recent/t141005eu1.html

« relevant legal provisions » :

46

Par

exemple,

le

CELLAR

lie

cette

décision

de

l’Office

Européen

des

Brevets

à

champ

Quel service public pour les données de jurisprudence?

c) le code juridiction, qui :

1)

doit comporter au moins un et au plus sept caractères,

2)

doit toujours commencer par une lettre mais peut aussi contenir des chiffres,

3)

devrait être choisi de manière à sembler logique aux personnes familiarisées avec l'organisation de l'appareil judiciaire du pays concerné,

4)

doit au minimum correspondre à une abréviation du nom de la juridiction, tout en pouvant aussi contenir une indication de la chambre ou de la section concernée au sein de cette juridiction, notamment s'il est habituel de désigner la chambre ou la section dans les renvois à la jurisprudence du pays concerné ; le Conseil d’Etat fait usage de cette faculté 47 .

5)

ne devrait pas contenir d'informations relatives au type de document,

6)

doit être fixé conformément au paragraphe 5, point 1 (cette abréviation doit

pouvoir apparaître comme telle dans une interface de recherche commune à l’ensemble des juridictions françaises),

7)

ne peut prendre la valeur «XX» que pour les décisions de juridictions ne figurant

pas sur la liste établie par [la DILA], […] ; Ce code pourrait s’appliquer aux sentences d’arbitrage.

d) l'année de la décision, qui doit être inscrite avec quatre chiffres ;

e) un numéro d'ordre, qui doit être unique en ce sens qu'il ne doit pas y avoir plus d'un jugement rendu la même année par la même juridiction et possédant le même numéro d'ordre. La longueur maximale du numéro d'ordre est de 25 caractères. Le numéro d'ordre peut contenir des points («.») mais aucun autre signe de ponctuation ne peut y figurer. Le

point peut donc servir à structurer le numéro d’ordre en fonction de critères propres à chaque juridiction. Le Conseil Constitutionnel use de cette faculté pour y marquer le type de décision, comme dans ECLI:FR:CC:2012:2012.270.QPC, où QPC désigne une Question Prioritaire de Constitutionnalité.

Toutes les parties d'un ECLI sont séparées par le signe deux-points («:»).Un ECLI ne doit contenir ni espacements ni signes de ponctuation, ni dans ses parties ni entre celles-ci 48 .

47

cour-de-cassation/ 48 Compte tenu de la longueur résultant de la concaténation de ces différents éléments, et s’agissant d’un identifiant potentiellement applicable à des dizaines de millions de décisions à l’échelle européenne, on peut regretter l’absence d’une clef de contrôle

Quel service public pour les données de jurisprudence?

Il faut noter que les cours suprêmes, ne renseignant pas les métadonnées elles-mêmes, ont été amenées à enrichir la sémantique de l’identifiant ECLI lui-même : le Conseil d’Etat insère la formation de jugement dans le code juridiction et la Conseil Constitutionnel le type de décision dans le numéro d’ordre.

Enfin, le numéro d’ordre est unique par juridiction et non unique au niveau de la jurisprudence française : un justiciable qui entrerait ce numéro d’ordre comme seul critère de sélection dans un moteur de recherche de jurisprudence est donc susceptible de voir s’afficher plusieurs décisions de juridictions différentes. Il est donc préférable que le code juridiction porté dans l’ECLI soit également reporté dans les actes de procédure et soit facile à retenir.

4.3.2 La codification de la juridiction

Parmi les différents composants de l’identifiant, la définition du code juridiction mérite une analyse.

La spécification de l’ECLI stipule que le code juridiction « devrait être choisi de

manière à sembler logique aux personnes familiarisées avec l'organisation de l'appareil judiciaire du pays concerné ».

Une extraction des bases de la DILA donne le décompte suivant (hors juridictions pénales) :

Juridictions dans les bases de la DILA

nombre

Conseil constitutionnel

1

Conseil de prud'hommes

210

Conseil d'Etat (chambres)

6

Cour administrative d'appel

8

Cour d'appel

36

Cour de cassation

1

Tribunal administratif

42

Tribunal de commerce

134

Tribunal de grande instance

164

Tribunal de première instance

4

Tribunal des conflits

1

Tribunal d'instance

301

Tribunal du Travail

6

Tribunal mixte de commerce

8

Tribunal supérieur d'appel

1

Total général

923

Quel service public pour les données de jurisprudence?

Le nombre important de juridictions, plus précisément de ressorts juridictionnels, est du à leur découpage sur une base géographique. Si la notion de ressort était reportée sous forme d’attribut (dans le champ « coverage », voir § 4.3.3), le code juridiction pourrait alors contenir le type de juridiction, et relever ainsi d’une nomenclature limitée à quelques dizaines de valeurs. La liste établie par le Syndicat National de l’Edition dans son Guide de citation des références juridiques 49 en compte 73.

Il faudrait également examiner les nomenclatures déjà utilisées au Ministère de la Justice, pour les juridictions judiciaires, et du Conseil d’Etat, pour les juridictions administratives, qui ont sans doute installé des habitudes chez les futurs utilisateurs de l’ECLI. Les réutiliser permettrait d’éviter de créer une deuxième nomenclature ex- nihilo et de devoir en assumer la charge d’administration, en fonction des évolutions des cartes judiciaire et administrative. Toutefois, il faut encore que les nomenclatures existantes soient compatibles avec la contrainte d’un code sur 7 positions maximales, commençant par une lettre, imposée par l’ECLI.

Le Ministère de la Justice gère ses nomenclatures dans le Système de Référence Justice (SRJ), bientôt renommé SyRéJus. Il y en a sans doute une distincte pour les juridictions civiles, alimentant Portalis, et une autre pour les juridictions pénales, alimentant Cassiopée. Quant aux juridictions administratives, elles ont sans doute été codées par le Conseil d’Etat dans son système d’information Ariane.

La nomenclature cible doit donc être constituée à partir de 5 types de juridictions :

Les juridictions exploitant déjà l’ECLI et déjà pourvues de code : Cour de Cassation, Conseil d’Etat, Conseil Constitutionnel ;

Les juridictions civiles, à coder de préférence en cohérence avec le système d’information Portalis ;

Les juridictions pénales, à coder de préférence en cohérence avec le système d’information Cassiopée ;

Les juridictions administratives, à coder de préférence en cohérence avec le système d’information Ariane ;

Les autres juridictions : Cour des Comptes et CRC, Autorités Administratives Indépendantes, INPI, etc…

Si cette nomenclature ne peut être constituée à partir des nomenclatures existantes, il faudra en bâtir une. La première position, qui doit être une lettre, pourrait alors être un A, pour l’ordre administratif, un C, pour Civil, P, pour Pénal et I pour les autorités administratives indépendantes. Le chiffre 1 ou 2 pourrait indiquer le degré de la

Quel service public pour les données de jurisprudence?

juridiction, une ou deux positions pourraient désigner le type de juridictions (prud- hommes, commerce, instance, grande instance, etc…) et 3 ou 4 positions pourraient désigner le ressort. Celui-ci pourrait être constitué des 2 chiffres du département puis d’un numéro d’ordre ou d’un code alphabétique pour désigner la ville au sein du département 50 .

D’autres combinaisons sont bien entendu possibles. Par exemple le ressort peut être identifié par les 4 premières lettres de la ville (ALBE pour Albertville) mais il y aurait des cas particuliers à gérer (par exemple pour distinguer Boulogne-sur-Mer et Boulogne-Billancourt).

L’établissement de cette nomenclature incombe à la DILA, en sa qualité de coordinateur national ECLI.

Proposition 15 : Etablir une nomenclature des codes de juridictions

Proposition 15 : Etablir une nomenclature des codes de juridictions

homogène, intuitive, exhaustive et compatible à l’ECLI

15 : Etablir une nomenclature des codes de juridictions homogène, intuitive, exhaustive et compatible à l’ECLI

4.3.3 L’écriture des métadonnées ECLI obligatoires

Les attributs de l’ECLI doivent être décrits selon la norme de métadonnées du Dublin Core 51 . Celle-ci est reconnaissable, ci-après, par le préfixe dcterms.

Chaque décision doit être décrite de la même façon, quelle que soit sa juridiction, son type d’affaire ou de contentieux :

Le champ dcterms:identifier contiendra l’URL permettant d'accéder au document considéré. Cette URL devrait être construite de préférence en y faisant apparaître l’ECLI en clair.

Le champ dcterms:isVersionOf contiendra l’ECLI 52 .

Le champ dcterms:creator pourrait contenir le nom complet de la juridiction correspondant au code juridiction renseigné en 3 e position dans l’ECLI.

Le champ dcterms:coverage désigne en principe le périmètre géographique sur lequel la décision s’applique. Si cette notion devait être peu utile en droit français, le champ pourrait alternativement désigner le ressort géographique de la juridiction, sous la forme du code INSEE de la commune siège du ressort, et non de son lieu physique 53 . A défaut d’un périmètre applicable, le champ

50 Le code SIRET de la commune ne peut pas servir. Il prendrait 5 chiffres sur les 7 positions disponibles.

51 Le Dublin Core est un schéma de métadonnées générique qui permet de décrire des ressources numériques ou physiques et d’établir des relations avec d'autres ressources (source : Wikipedia)

52 Nous n’avons pas compris ce champ

53 Par exemple, pour le tribunal de Lille, on retiendrait le code INSEE de la commune de Lille, 59350, même si le tribunal se trouve physiquement à Tourcoing

Quel service public pour les données de jurisprudence?

pourrait prendre la valeur ‘FRA’, code ISO de la France.

Le champ dcterms:date contiendrait la date d’immatriculation de l’ECLI ; comme une même décision est susceptible d’être mise en ligne à différentes dates par différents portails juridictionnels, il est préférable, pour préserver l’unicité des métadonnées, de retenir la date à laquelle l’ECLI a été formé, date qui leur est nécessairement antérieure ou égale.

Le champ dcterms:language aura pour valeur « FR ».

Le champ dcterms:publisher pourrait avoir pour valeur « DILA », « SGG » ou

« Secrétariat Général du Gouvernement ».

Le champ dcterms:type pourrait distinguer le type de décision : par un juge, par un jury, par une autorité administrative indépendante, par un tribunal arbitral, par une plateforme numérique d’arbitrage. Il serait obligatoire.

4.3.4 L’écriture des métadonnées ECLI facultatives

La norme ECLI considère les champs suivants comme facultatifs :

Le champ dcterms:title pourrait reprendre tout titre porté en entête du texte de la décision, s’il existe, ou le numéro interne propre à la juridiction, par exemple

« Jugement n° 2015-0011 ».

Le champ dcterms:subject pourrait décrire une liste des descripteurs assurant la classification thématique des décisions. Le SRJ contient peut-être une nomenclature applicable. Le cas échéant, le contenu de ce champ pourrait provenir de thésaurus différenciés selon le type de juridiction 54 ou d’un thésaurus unifié qui serait spécialement conçu par la DILA.

Le champ dcterms:abstract pourrait contenir le résumé de la décision quand il existe.

Le champ dcterms:description aurait valeur de commentaire et serait renseigné librement et facultativement par la juridiction.

Le champ dcterms :contributor est réservé aux noms des juges, du procureur ou d'autres membres du personnel judiciaire concernés. Ceux-ci doivent donc être isolés par un séparateur de virgule. Si leur rôle respectif doit être mentionné, il faudra convenir d’une règle syntaxique pour qu’il apparaisse : par ex

« juge:Jean Dupont,procureur:Jacques Leroy ».

54 Voir la synthèse faite à ce sujet par Emmanuel Barthe sur http://www.precisement.org/blog/+Des-thesaurus- juridiques-de-valeur+.html

Quel service public pour les données de jurisprudence?

Le champ dcterms :issued désigne la date de publication. Il sera donc renseigné en fonction du fait déclencheur choisi de cette publication (cf § 5.3).

Le champ dcterms :references permet de lier la décision à d’autres documents juridiques, nationaux ou communautaires. On peut y mettre une URL ou tout autre moyen d’identification. On y revient au § 4.4.2.

Le champ dcterms :isReplacedBy, s’il est renseigné, contient l’ECLI de la décision de rectification.

4.3.5 Autres caractéristiques à décrire

Les caractéristiques suivantes mais pas nécessairement exhaustives - ne sont pas prévues par l’ECLI, mais devraient être décrites par des métadonnées complémentaires :

Le ressort de la juridiction 55 ; il pourrait être désigné par le code INSEE (5 chiffres) de la commune du ressort ;

La date de dernière modification, utile cas d’enrichissement ultérieur de champs facultatifs ;

Le type de chambre ;

La chambre elle-même ;

La nature d’affaire ou de contentieux ;

Le « prononcé public » ou non du jugement ;

Le type de diffusion ;

o

les arrêts de la Cour de Cassation peuvent combiner les valeurs suivantes : P (publié), B (publié au bulletin), R (publié au rapport), I (publié et sur internet) 56 ;

o

pour le Conseil d’Etat, le type de diffusion pourrait reprendre le « code de publication », avec A pour les décisions présentant un intérêt jurisprudentiel majeur, B pour les décisions signalées et C pour celles ne présentant pas d’intérêt juridique particulier 57 . Une autre position pourrait indiquer s’il y a publication ou non au Recueil Lebon ;

Quel service public pour les données de jurisprudence?

o

une valeur ‘non publiable’ doit pouvoir s’appliquer à certaines juridictions, comme l’AMF ;

o

d’autres juridictions pourraient avoir d’autres types de diffusion ;

Le type d’anonymisation : manuelle, assistée, automatisée, aucune. Ce champ sera utile à l’appréciation de la qualité présumée de l’anonymisation. La valeur « aucune » s’appliquerait en cas de décision ayant explicitement requis la publicité des noms ;

La décision liée précédente : une décision d’une juridiction de 2 e degré se réfère ici à une décision du 1 er degré ; cette décision serait bien entendu identifiée par son ECLI 58 ; ce lien permettrait de reconstituer de proche en proche toute la chaine du contentieux ;

La décision liée précédente rectifiée : si la norme ECLI prévoit un champ isReplacedBy pour marquer sur une décision le lien vers la décision suivante de rectification, ce champ en serait la réciproque.

Le quorum : à la majorité, à l’unanimité…

Un indicateur qui permettrait de stipuler que l’anonymat a été explicitement demandé dans la décision (cf exemple de l’AMF au § 1.5.2), explicitement exclu (idem au § 1.5.1) ou relève du droit commun ;

La date d’annulation éventuelle par la Cour de Cassation, ou date d’amnistie 59 .

Proposition 16 : Dresser l’inventaire détaillé des métadonnées, ECLI ou non, requises par la réutilisation

Proposition 16 : Dresser l’inventaire détaillé des métadonnées, ECLI ou non, requises par la réutilisation des décisions de justice, selon leur

juridiction ou type de contentieux

ECLI ou non, requises par la réutilisation des décisions de justice, selon leur juridiction ou type

4.3.6 Le format de publication des métadonnées

Quant à l’ECLI, il décrit un vocabulaire 60 , mais pas de format technique, et en particulier ne stipule pas que l’identifiant doit prendre la forme d’une URI.

Par ailleurs, plusieurs initiatives proposent un balisage spécifique aux documents juridiques à l’aide d’une taxonomie XML, parmi lesquelles Akoma Ntoso 61 est une

58 Une décision de la Cour de Cassation se réfère à un numéro de pourvoi, identifiant de la procédure administrative. Le processus pourrait être revisité pour examiner la faisabilité de son remplacement par le numéro ECLI de la décision à l’origine de ce pourvoi

61 Récemment renommé LegalDocML ; voir http://www.akomantoso.org/

Quel service public pour les données de jurisprudence?

proposition déjà mise en œuvre dans de nombreux pays extra-européens ainsi que par le parlement européen, qui l’utilise pour structurer ses propositions d’amendements.

Il serait judicieux de publier la jurisprudence du fond directement en RDF puisqu'il n'y a rien sur quoi se greffer.

4.4

Evolutions des normes européennes des données juridiques

Cette étude est rédigée sur la base de la première version de l’ECLI publiée en 2011. Peut-être certaines évolutions ont-elles été déjà actées. Quoi qu’il en soit, la norme actuelle ne suffit pas à couvrir tous les besoins.

4.4.1

Harmonisation des formats

Les formats techniques de représentation de l'ELI et de l'ECLI devraient converger de façon à garantir leur interopérabilité. RDF est aujourd’hui le format qui permet de porter la législation sur le Web sémantique. Si RDF doit rester la cible de l'ELI, alors il faudrait qu'il le soit aussi pour l'ECLI. La CJUE et l’OEB ont en tout cas déjà fait ce choix tactique en injectant leurs propres décisions dans le CELLAR.

Dans ce cas, l’identifiant dctersm :identifier prendrait la forme d’une URI. A titre d’exemple, ECLI.FR:CCASS:2016:SO01309 aurait pour URI : http://

www.legifrance.gouv.fr/ECLI.FR:CCASS:2016:SO01309.

ELI se fonde par ailleurs sur le modèle bien établi des «Fonctionnalités requises des notices bibliographiques» (FRBR) 62 . Ce modèle fait une distinction entre les concepts d’«oeuvre» (création intellectuelle ou artistique déterminée), d’«expression» (réalisation intellectuelle ou artistique d’une oeuvre) et de «manifestation» (matérialisation de l’une des expressions d’une oeuvre) 63 . L’expression permet en particulier de distinguer la langue de rédaction, et la manifestation le format de représentation, PDF, HTML ou XML.

Chacun de ces formats a son utilité :

62 http://archive.ifla.org/VII/s13/frbr/ en anglais; version française sur http://www.bnf.fr/documents/frbr_ rapport_final.pdf 63 Cf http://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri=CELEX:52012XG1026(01)&from=FR, page 325/10

Quel service public pour les données de jurisprudence?

Le PDF est le format de prédilection de la majorité des lecteurs, notamment dans les professions juridiques ;

Le HTML permet d’assurer une lecture commune par les humains et les machines, grâce à l’encapsulation d’étiquettes RDFa ;

Le XML permet une représentation unifiée du texte et de ses métadonnées et une structuration du texte proprement dit à l’aide d’une taxonomie comme Akoma Ntoso (cf § 4.3.5).

Pour faciliter le maillage de la jurisprudence sur la législation, il serait judicieux de soumettre également l’ECLI au modèle FRBR ; si la langue est un critère d’expression pertinent s’agissant de juridictions supra-nationales (CJUE ou CEDH), les décisions de justice de juridictions françaises seront toujours écrites en français ; en revanche, ce niveau d’expression pourrait servir à distinguer une version originale certifiée non anonymisée et une version anonymisée.

L’ECLI « ECLI.FR:CCASS:2016:SO01309 » en exemple plus haut pourrait ainsi se décliner en 4 URI correspondant à 4 « manifestations » différentes de la décision :

https://www.legifrance.gouv.fr/ECLI.FR:CCASS:2016:SO01309/original/pdf, pour le texte original en format PDF,

http://www.legifrance.gouv.fr/ECLI.FR:CCASS:2016:SO01309/pdf, pour le texte anonymisé en format PDF,

http://www.legifrance.gouv.fr/ECLI.FR:CCASS:2016:SO01309/html, pour le texte anonymisé en format HTML,

http://www.legifrance.gouv.fr/ECLI:FR:CCASS:2016:SO0139/xml, pour le texte anonymisé en format XML.

La première URI, donnant accès au texte original, ne serait accessible qu’à une personne habilitée après authentification.

4.4.2 Attributs de liens législatifs et jurisprudentiels

Tout texte de décision invoque normalement les textes législatifs sur lesquelles cette décision est fondée 64 . Ces références juridiques sont généralement regroupées dans un exposé des motifs ou des griefs.

Or la métadonnée dcterms:references est un champ générique du Dublin Core, qui ne distingue pas les décisions de la législation, et ne décrit pas de règle d’écriture pour

64 « nullum crimen sine lege » : c'est à la loi de définir les infractions; le juge ne peut inventer un délit

Quel service public pour les données de jurisprudence?

une décision où plusieurs références de chaque seraient nécessaires. Elle est aujourd’hui utilisée par la CJUE et l’OEB seulement pour lier une décision à une ou plusieurs autres décisions (cf § 4.3.3).

Il est donc proposé ici de créer une métadonnée dédiée pour contenir un lien vers un texte législatif et une autre pour contenir un lien vers une autre décision de justice. Elles pourraient s’appeler « invokes_legislation » et « invokes_case » pour respecter la convention de nommage de l’ELI.

Si le format technique devait être de type CSV (fichier plat avec champs séparés par des point-virgules), et si plusieurs liens de même nature devaient être décrits, ils pourraient être concaténés ensemble séparés par des virgules, à l’intérieur de ce champ. Si le format technique devait être RDF, la décision fera l’objet d’une écriture d’autant de lignes (triplets) qu’il y a de références élémentaires.

Ces textes législatifs devraient être identifiés par leur ELI, s’il existe 65 . La décision devrait pouvoir indifféremment invoquer un texte communautaire ou un texte de n’importe quelle juridiction d’un Etat-membre dans ce champ.

Pour gagner en précision, le lien législatif devrait pouvoir renvoyer vers un article plutôt que vers le texte lui-même.

Par exemple, une décision pourrait avoir dans sa métadonnée « invokes_legislation » le

contenu :

de

texte français.

article

Le champ « invokes_legislation » serait obligatoire tandis que « invokes_case » serait facultatif. Chaque décision pourrait ainsi avoir n triplets de liens législatifs et p triplets de liens jurisprudentiels dans son format RDF. Le champ dcterms :references ne serait plus utilisé que pour des liens autres que de type ELI ou ECLI.

65 Les Conclusions de 2011 stipulent qu’un instrument législatif communautaire doit être identifié par son code CELEX et n’imposent aucune règle d’identification d’un instrument législatif national

Quel service public pour les données de jurisprudence?

Ces liens sont fondamentaux. En permettant un maillage de la jurisprudence sur la législation, ils ouvrent des perspectives de valorisation des données judiciaires et juridiques et des opportunités de nouveaux services commerciaux pour le secteur privé. Voici quelques exemples d’analyses rendues permises par de tels liens :

Textes jamais, ou au contraire souvent, invoqués dans les décisions de justice

Textes invoqués par différents juges à type d’affaire égal

Comparaison des sanctions prononcées dans mêmes textes

des

décisions invoquant les

Classification des décisions de justice selon la classification thématique des textes invoqués 66

Proposition 17 : Inciter la Commission européenne à rapprocher les groupes de travail sur l’ELI

Proposition 17 : Inciter la Commission européenne à rapprocher les groupes de travail sur l’ELI et l’ECLI pour une meilleure interopérabilité

des deux normes

à rapprocher les groupes de travail sur l’ELI et l’ECLI pour une meilleure interopérabilité des deux

4.4.3 Ajout à l’ECLI de métadonnées supplémentaires

L’organisation de la Justice en France requiert, pour une recherche efficace des décisions de jutice, de descripteurs complémentaires (cf § 4.3.5) non décrits actuellement par la norme ECLI.

Le coordinateur national ECLI pourrait soumettre chacun de ces autres descripteurs à proposition d’inclusion dans la norme. L’instance ECLI européenne examinerait l’intérêt de proposer ces descripteurs aux autres juridictions nationales.

A défaut, ces champs constitueraient une norme nationale complémentaire à l’ECLI, et leur contenu ne serait pas transmis au portail européen ECLI.

Proposition 18 : Rechercher des convergences de besoins normatifs avec

Proposition 18 : Rechercher des convergences de besoins normatifs avec

les autres Etats-membres ayant adopté l’ECLI

Proposition 18 : Rechercher des convergences de besoins normatifs avec les autres Etats-membres ay ant adopté

66 Par exemple, les décisions invoquant des textes européens peuvent être classées selon les descripteurs Eurovoc renseignés dans le champ « is_about » faisant partie des métadonnées ELI. Les décisions françaises invoquant des textes nationaux pourraient l’être selon les descripteurs SARDE si Légifrance les reportaient dans cette même métadonnée.

Quel service public pour les données de jurisprudence?

5.

LE SERVICE PUBLIC DE DIFFUSION DE LA JURISPRUDENCE

5.1

Définitions

La loi pour une République numérique instaure dans son article 14 un service public de la donnée pour les données de référence 67 . Les données de la jurisprudence sont plutôt des données de production et ne sont pas couvertes par l’article 14. Pour autant, l’ouverture de la jurisprudence contraint les pouvoirs publics à créer, nolens volens, un certain niveau de service public de la donnée jurisprudentielle, en raison du grand nombre de réutilisateurs potentiels, du caractère continu de la production, de l’existence d’un cycle de vie et de l’exigence de qualité de ces données.

Dans la suite de cette étude, nous définissons le service public de diffusion de la jurisprudence comme l’ensemble des services suivants :

- La mise à disposition des décisions anonymisées

- La recherche de jurisprudence

- La gestion des droits d’opposition, de rectification ou de suppression

- La rectification à l’initiative de la juridiction

- La notification de décision au justiciable

- La délivrance de copie de décision

- L’administration des nomenclatures juridiques

- L’archivage des décisions

5.2

Le périmètre de la diffusion

Les articles 20 et 21 de la loi République numérique évoquent les « jugements » et « décisions de justice » pour les ordres administratif et judiciaire respectivement. Il convient d’en préciser les définitions et de déterminer notamment si l’ouverture de la jurisprudence inclut les différents types d’ordonnance, les référés, les non-lieu, les relaxes, les décisions d’amnistie, les nominations…

67 https://www.legifrance.gouv.fr/eli/loi/2016/10/7/2016-1321/jo/article_14. La nomenclature des juridictions constitue un jeu de données de référence, et devrait, à ce titre, être couverte par le décret d’application à paraître

Quel service public pour les données de jurisprudence?

Les quelque quarante Autorités Administratives Indépendantes (AAI) 68 rendent aussi des jugements ou des décisions. Mais leur nature et leur volume respectifs sont très variés. Les seuls avis motivés de la CNIL introduits par la loi République numérique, par exemple, en font-ils partie?

Il conviendrait de faire la liste précise des AAI pour lesquelles la mise en place d’un dispositif de diffusion spécifique serait justifiée. On précisera aussi si les arrêtés locaux, pris par les préfectures ou les municipalités, entrent dans le périmètre.

Certains actes de procédure valent peut-être « décision », tandis que certaines « décisions » formelles ou « inédites » ne sont pas susceptibles d’intéresser des réutilisateurs. A l’inverse, d’autres décisions sont susceptibles d’apparaitre identiques après anonymisation mais rester pertinentes replacées dans le contexte de leur chaine de contentieux propre, ou encore rester pertinentes simplement par leur nombre.

Certaines décisions peuvent être explicitement non diffusables, en vertu de la législation ou de la décision elle-même, mais garder le bénéfice d’une identification par un ECLI et d’une publication de leurs métadonnées. Le texte de la décision peut alors être publié chiffré, ou non publié.

Le périmètre de diffusion peut aussi épouser un périmètre de juridictions. Par exemple, les juridictions pour mineurs ou de l’application des peines doivent-elles en faire partie? Un rapport de la Cour des Comptes relève-t-il de la jurisprudence?

L’arbitrage, bien que « hors juridiction » par nature, mériterait d’être inclus au périmètre. Une sentence devrait pouvoir être identifiable par un ECLI, en utilisant le code juridiction XX prévu par la norme. L’affectation de l’identifiant ECLI et des métadonnées pourrait être initiée soit par la plateforme ou le tribunal d’arbitrage, soit par le juge de l’ordre judiciaire qui l’homologue.

Proposition 19 : Adopter un périmètre aussi large que possible des décisions à rendre accessibles

Proposition 19 : Adopter un périmètre aussi large que possible des décisions à rendre accessibles et des décisions à rendre éligibles à

réutilisation

aussi large que possible des décisions à rendre accessibles et des décisions à rendre éligibles à

Enfin, la question du périmètre de diffusion porte aussi sur le stock de décisions à reprendre au moment de l’entrée en vigueur du dispositif. La profondeur historique du stock de décisions « éclifiable » dépendra, selon le juridiction ou le type d’affaire ou de contentieux, de l’ancienneté de la base de données existante, de la facilité relative d’extraction, et des moyens humains disponibles pour effectuer cette opération exceptionnelle.

68

Quel service public pour les données de jurisprudence?

Proposition 20 : Définir une stratégie spécifique de reprise du stock de

Proposition 20 : Définir une stratégie spécifique de reprise du stock de

décisions

Proposition 20 : Définir une stratégie spécifique de reprise du stock de décisions

5.3 Le fait déclencheur de la diffusion

Avec les rectifications, les appels et les pourvois en cassation, une décision a un cycle de vie. Quel que soit le processus envisagé, il faut assurer le chaine des décisions liées entre elles. Et quel que soit le fait déclencheur, l’affectation préalable d’un ECLI est préférable.

l’affectation préalable d’un ECLI est préférable. Ce fait déclenche ur d’une publication peut varier selon

Ce fait déclencheur d’une publication peut varier selon les juridictions. C’est soit :

La rédaction ou la rectification : dans ce scénario, toute décision est publiable dès que sa version initiale ou rectifiée est rédigée et vérifiée, même si elle est susceptible de recours.

Le recours : dans ce scénario, la publication est concomittante à la transmission du dossier à une juridiction supérieure, y compris jusqu’au niveau communautaire. Un décision non susceptible d’appel resterait publiable selon l’un des faits déclencheurs cités plus haut.

Quel service public pour les données de jurisprudence?

L’épuisement des recours : l’atteinte de la date d’échéance du dernier recours peut entrainer la relâche de la décision définitive et avec elle des décisions intermédiaires. L’intérêt de ce scénario est de permettre de ne publier que les décisions qui n’ont pas été annulées.

5.4

Les étapes de la diffusion

5.4.1

L’immatriculation des décisions

On utilise ici à dessein le terme d’immatriculation, déjà utilisé pour les véhicules, les entreprises ou les valeurs mobilières. Elle désigne ici la création d’un identifiant ECLI, de ses métadonnées associées et de l’URL renvoyant au texte de la décision. La saisie des métadonnées peut être effectuée en même temps que la création de l’ECLI, ou ultérieurement.

Trois procédures peuvent être envisagées (cf § 5.5).

Proposition 21 : Etudier les modalités d’intégration du processus d’immatriculation des décisions de justice dans les chaines applicatives

civile, pénale et administrative

 

5.4.2

La normalisation des métadonnées

Il est vraisemblable que toutes les juridictions ne fourniront pas leurs métadonnées dans un même format. Par exemple, Portalis pourrait fournir ses décisions de justice dans un format propre, et Cassiopée les siennes dans un autre, notamment parce que ces structures de fichiers leur servent déjà pour communiquer avec d’autres systèmes d’informations de l’Etat. Du reste, les flux déjà reçus par la DILA en provenance des cours suprêmes ont chacun leur propre format.

La normalisation consiste donc à remanier les (méta)données entrantes pour les loger dans une même base de données de la DILA.

Proposition

22 :

Confirmer

la

DILA

dans

sa

responsabilité

de

normalisation des métadonnées ECLI et complémentaires

 

Plusieurs AAI ont mutualisé leurs moyens et locaux à travers le projet Fontenoy-Ségur. La même démarche pourrait présider à la conception d’un format unique de mise à disposition de leurs décisions auprès de la DILA. Cela réduirait d’autant la charge de normalisation chez celle-ci.

Quoi qu’il en soit, un inventaire des applications appelées à fournir des fichiers à la DILA s’imposera.

Quel service public pour les données de jurisprudence?

5.4.3 L’ajout de titres et de liens

Cet enrichissement en métadonnées porte sur :

les liens, vers la législation ou d’autres décisions

le classement thématique de la décision

La DILA procède déjà à un traitement d’analyse sémantique sur les textes législatifs, puisqu’elle extrait les références juridiques pour les transformer en hyperliens vers d’autres textes et qu’elle procède aussi au « titrage » de ces textes avec son système SARDE. Elle pourrait donc être naturellement appelée à exploiter son savoir-faire sur les corpus jurisprudentiels.

Toutefois, le classement thématique des décisions pourrait s’appuyer sur le thésaurus Jurivoc développé par la Chancellerie au lieu de SARDE.

Proposition 23 : Définir des règles d’écriture des métadonnées assurant l’interopérabilité de la jurisprudence

Proposition 23 : Définir des règles d’écriture des métadonnées assurant l’interopérabilité de la jurisprudence française avec la jurisprudence

européenne et la législation

assurant l’interopérabilité de la jurisprudence française avec la jurisprudence européenne et la législation

5.4.4 L’anonymisation

Le traitement d’anonymisation peut être distribué sur toute la chaine de production.

L’écriture en « privacy by design » : le principe de minimisation est ici pris en compte dès la rédaction de la décision, en particulier quand elle la décision est saisie dans un outil d’aide à la rédaction. Elle a lieu au tribunal et peut être issue d’un échange itératif entre le juge et le greffier. Les données personnelles nécessaires à l’intelligibilité d’une décision par un lecteur ayant droit d’en connaître sont en clair à ce stade.

La pré-anonymisation : dans ce scénario, lj’anonymisation n’intervient qu’une fois la décision de justice signée, ou du moins validée. Elle est effectuée au tribunal. Elle peut être issue d’un accord avec les parties, et dans ce cas effectuée manuellement. Elle peut aussi être effectuée avec un outil d’anonymisation automatique, paramétré selon les règles définies pour le type de juridiction et le type d’affaire concernée. Les données ayant subi ce niveau d’anonymisation sont perdues définitivement.

Quel service public pour les données de jurisprudence?

L’anonymisation centralisée : dans ce scénario, l’anonymisation est postérieure à la signature de la décision et comprend nécessairement une première phase d’automatisation. Le traitement peut être pris en charge par la tête juridictionnelle (Cour de Cassation ou Conseil d’Etat) ou par la DILA.

Proposition 24 : Mesurer l’effort d’investissement requis dans les chaines applicatives civile, pénale et

Proposition 24 : Mesurer l’effort d’investissement requis dans les chaines applicatives civile, pénale et administrative, pour les rendre conformes au

principe de « privacy by design »

chaines applicatives civile, pénale et administrative, pour les rendre conformes au principe de « privacy by

L’écriture en « privacy by design », conçue pour supprimer tout besoin d’anonymisation ultérieur, ne peut être qu’un objectif à long terme pour la plupart des juridictions, compte tenu de l’investissement requis. Dans un premier temps, l’anonymisation peut être effectuée en une seule fois, dans un traitement centralisé. En cible, il peut aussi être distribué selon ces 3 étapes de la chaine de production.

5.4.5 La mise à disposition

La mise à disposition peut être effectuée par :

mise en ligne, pour affichage sur un portail web,

export de fichier, dans un format structuré à l’intention de rediffuseurs,

enregistrement sur le Web sémantique,

ou une combinaison de ces trois modes.

La décision peut être mise en ligne soit par la juridiction elle-même, soit par la Cour de Cassation, si elle relève de l’ordre judiciaire, et par le Conseil d’Etat, si elle relève de l’ordre administratif. Les décisions de chacune des cours suprêmes sont déjà disponibles sur leur portail respectif. Cela peut aussi dépendre du type de juridiction. Par exemple, la jurisprudence d’une chambre régionale des comptes peut encore être mise en ligne par celle-ci ou par la Cour des Comptes. D’autres juridictions peuvent sans doute mettre en ligne leur jurisprudence à coût raisonnable sur leur portail déjà existant.

La DILA devrait avoir un rôle de centralisation et de normalisation 69 des métadonnées et de mise à disposition de l’ensemble de la jurisprudence. En mettant en ligne chaque décision, elle encapsulera les métadonnées dans la page HTML sous forme d’étiquettes RDFa. Cette mise en ligne ne sera pas redondante avec celle des juridictions, car elle seule permet la réutilisation par des machines.

69 Les 3 flux existants en provenance des cours suprêmes fonctionnent en 3 silos utilisant des règles de gestion différentes. Les processus existants ne peuvent donc être extrapolés. Au contraire, il faudrait envisager un processus de centralisation qui puisse englober le jour venu les cours suprêmes.

Quel service public pour les données de jurisprudence?

Cette mise en ligne peut être complétée par un enregistrement sur le Web sémantique. Le scraping (grattage) des étiquettes RDFa et leur transformation en triplets RDF devrait une opération simple. Elle permettrait de diriger les réutilisateurs vers le triple store plutôt que vers le portail Légifrance. La collecte des métadonnées devrait s’en trouver facilitée pour les réutilisateurs et le serveur du portail Légifrance s’en trouver soulagé : sa priorité reste d’assurer un bon confort d’utilisation pour les internautes. La constitution d’un triple store permettrait aussi d’assurer l’interopérabilité de ses métadonnées avec celles du CELLAR, et d’éviter ainsi la généralisation du flux de transfert existant avec le portail européen.

Proposition 25 : Définir des modalités de mise à disposition de la

jurisprudence

de

nature

à

assurer

une

équité

de

traitement

entre

réutilisateurs publics ou privés

 

Le flux de jurisprudence peut encore faire l’objet d’un export de fichier XML. Le même format de fichier peut être proposé aux réutilisateurs privés, au portail « open data » français 70 , administré par Etalab, et au portail européen. Il reste que l’administration d’un tel flux a un coût. La DILA pourrait imposer aux réutilisateurs (les éditeurs juridiques, mais aussi le Barreau de Paris, qui a son propre projet de base de données juridiques) de venir interroger un triple store chez elle au lieu de recevoir chez eux un flux prêt à l’emploi.

Il faut encore déterminer si la mise en ligne (pour une réutilisation par des humains), l’enregistrement dans le triple store et l’export de fichier (pour un réutilisation par des machines) doivent être simultanés, ou si les deux derniers doivent être subordonnés à la première.

70 Les contenus des bases de jurisprudence ouvertes de la DILA sont déjà transmis quotidiennement à Etalab, mais en autant de « silos » qu’il y a des bases sources, et ces données ne sont pas normées selon ECLI

Quel service public pour les données de jurisprudence?

5.5

Le circuit de production

Le schéma ci-après illustre le circuit de la décision des producteurs jusqu’aux réutilisateurs :

Schéma général des flux

Ordre

judiciaire

Ordre judiciaire

Ordre

administratif

Ordre administratif
général des flux Ordre judiciaire Ordre administratif légifrance Éditeurs juridiques data.gouv.fr
général des flux Ordre judiciaire Ordre administratif légifrance Éditeurs juridiques data.gouv.fr
général des flux Ordre judiciaire Ordre administratif légifrance Éditeurs juridiques data.gouv.fr

légifrance

flux Ordre judiciaire Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La
flux Ordre judiciaire Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La
flux Ordre judiciaire Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La

Éditeurs juridiques

Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit
Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit
Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit
Ordre administratif légifrance Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit

data.gouv.fr

e-justice.europa.eu

Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit située chez les producteurs peut être
Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit située chez les producteurs peut être
Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit située chez les producteurs peut être
Éditeurs juridiques data.gouv.fr e-justice.europa.eu La partie du circuit située chez les producteurs peut être

La partie du circuit située chez les producteurs peut être organisée de différentes manières.

5.5.1

Scénario 1 : transmission simultanée des décisions et des métadonnées

Dans ce scénario, qui s’applique déjà au Conseil Constitutionnel et au Conseil d’Etat, l’immatriculation est l’affaire de la juridiction elle-même. Elle fabrique l’ECLI en structurant en particulier le numéro d’ordre de façon discrétionnaire. Elle veille à l’absence de doublons, et prend en charge rectifications et annulations.

Les décisions sont transmises simultanément avec leurs métadonnées au sein d’un même fichier de format XML, conformément au schéma ci-après :

Quel service public pour les données de jurisprudence?

Quel service public pour les données de jurisprudence? Le format XML étant défini par chaque juridiction,

Le format XML étant défini par chaque juridiction, la DILA assure alors un rôle de normalisation, en distinguant les métadonnées propres à l’ECLI et les autres mtéadonnées propres aux spécificités françaises.

Ce scénario a l’avantage de préserver l’autonomie opérationnelle de la juridiction. Cependant, il suppose que celle-ci ait des moyens techniques (XML) et humains (gestion des rectifications) comparables à ceux des deux hautes juridictions. De plus, l’enrichissement des métadonnées sera vécu comme une contrainte, et le flux transmis à la DILA risque d’être pauvre.

5.5.2 Scénario 2 : transmission séparée des décisions et des métadonnées

Ce scénario consisterait à superposer un circuit de diffusion des métadonnées parallèle à la chaine de traitement des décisions actuelle, que ce soit dans Portalis, pour les affaires civiles, Cassiopée, pour les affaires pénales, ou Ariane pour les contentieux de l’ordre administratif.

Chaque juridiction numérote et qualifie ses décisions, et les envoie à la DILA dans son format spécifique, à charge pour cette dernière de les normaliser comme dans le scénario précédent.

Ce scénario pourrait s’appliquer pendant une période de transition jusqu’à ce que dans les chaines applicatives Portalis, Cassiopée et Ariane intègrent l’ECLI et la saisie des métadonnées à la source des décisions.

Quel service public pour les données de jurisprudence?

Quel service public pour les données de jurisprudence? Des variantes de ces deux scénarios peuvent être

Des variantes de ces deux scénarios peuvent être imaginées selon les juridictions. En particulier, le processus d’anonymisation peut aussi être assuré par la DILA ou un prestataire de confiance dont c’est la spécialité.

Ces scénarios, tactiques, peuvent être étudiés avec la participation des personnels concernés. Magistrats, greffiers, fonctionnaires de la Direction des Services Judiciaires et de la DILA pourraient être réunis dans des ateliers de co-conception dédiés aux filières civile et pénale respectivement. Des ateliers similaires pourraient être montés avec des magistrats du Conseil d’Etat pour la filière administrative. Les ateliers seraient orientés vers la recherche de solutions d’amélioration simple (« quick wins ») de nature à faciliter l’ouverture de la jurisprudence sur un plan pratique.

Proposition 26 : Animer des ateliers de co-conception, dans chaque filière juridictionnelle, en vue de

Proposition 26 : Animer des ateliers de co-conception, dans chaque filière juridictionnelle, en vue de dégager des « quick wins » facilitant

l’ouverture de la jurisprudence

chaque filière juridictionnelle, en vue de dégager des « quick wins » facilitant l’ouverture de la

Quel service public pour les données de jurisprudence?

5.5.3 Scénario 3 : immatriculation des décisions par la DILA

Une immatriculation des décisions totalement décentralisée est nécessairement source d’erreur, d’autant que les juridictions sont nombreuses et hétérogènes. Dans cet autre scénario, qui pourrait être la cible, la saisie des métadonnées, contrôlée et adaptée au type de juridiction, pourrait être assurée par un portail unique, qui renverrait un identifiant ECLI en temps réel.

C’est un modèle analogue à NORIA, le système mis en place par la Banque de France pour l’immatriculation avec un code ISIN des titres de créances négociables émis par l’ensemble des banques françaises 71 .

émis par l’ensemble des banques françaises 7 1 . Ce portail pourrait être exploité par la

Ce portail pourrait être exploité par la DILA et seules des personnes habilitées dans les juridictions y auraient accès.

71 Banque de France, Identification des Titres de Créances Négociables par le code ISIN dans le projet NORIA, https://www.banque- france.fr/fileadmin/user_upload/banque_de_france/Stabilite_financiere/Analyses_de_la_bdf/utilisation_code_isin.pdf

Quel service public pour les données de jurisprudence?

Quel service public pour les données de jurisprudence? L’identifiant ECLI renvoyé par le portail serait ensuite

L’identifiant ECLI renvoyé par le portail serait ensuite reporté dans la chaine de traitement des décisions.

 

Proposition 27 : Choisir pour les décisions futures un scénario de circuit

de production de la jurisprudence anonymisée et enrichie en métadonnées

5.6

Les autres tâches de gestion

5.6.1

La recherche de jurisprudence

En principe, toute décision publiable devrait être disponible sur au moins 3 portails :

celui de l’ordre judiciaire (justice.fr et/ou courdecassation.fr) ou administratif (conseil- etat.fr), selon le cas, celui de la DILA (legifrance.fr) et celui de l’Union européenne (e- justice.europa.eu).

Cela ne signifie pas que ces portails font triple emploi. Comme le montre le tableau ci- après, ils se différencient par le jeu de critères de recherche et le détail du contenu affichable.

Quel service public pour les données de jurisprudence?

Fonctionnalités des

Fonctionnalités des

 

courdecassation.fr

   

e-justice.europa.eu

 

portails de recherche de

conseil-etat.fr

légifrance.fr

data.gouv.fr

jurisprudence

justice.fr

(hypothèse de cible)

décisions de l'ordre judiciaire

b

b

 

b

b

b

décisions de l'ordre administratif

   

b

b

b

b

recherche par identifiant ECLI

b

b

b

b

b

 

recherche par autre identifiant

b

b

b

b

   

recherche avancée :

           

- métadonnées ECLI

b

b

b

b

b

 

- métadonnées complémentaires

     

b

   

version originale certifiée

b

b

b

     

chaine des actes de procédure

b

         

versions traduites anonymisées

       

b

 

doctrine d'Etat

     

b

   

hyperliens sur législation

     

b

 
hyperliens sur législation       b  

Justice.fr et conseil-etat.fr 72 ont une vocation d’aide au justiciable, donc ces portails pourraient proposer une interrogation sur un numéro d’acte de procédure ou sur un ECLI. A terme, ils devraient également proposer au justiciable un accès de type « extranet », lui permettant de consulter l’ensemble des affaires et actes le concernant. Les décisions pourraient alors y apparaître dans leur version non anonymisée et certifiée (ayant valeur probante). Affichée au format PDF, la décision serait même téléchargeable par le justiciable.

Légifrance, quant à lui, a une vocation généraliste. Toute personne devrait pouvoir y lancer une recherche de décision(s) de justice, sans authentification préalable 73 . C’est alors bien entendu la version anonymisée qui serait affichée. Le portail pourrait proposer comme critères de recherche non seulement les métadonnées ECLI, mais également des métadonnées complémentaires communes à l’ensemble des juridictions françaises, celles affectées par la DILA au terme du processus de normalisation. Légifrance jouerait ainsi un rôle comparable au portail américain PACER 74 .

73 Comprenant a minima les critères de recherche actuels sur https://www.legifrance.gouv.fr/Aide/Utilisation/Jurisprudence-judiciaire-recherche-experte

74 Public Access To Court Electronic Records, https://www.pacer.gov

Quel service public pour les données de jurisprudence?

Proposition 28 : Clarifier les rôles respectifs des différents portails

Proposition 28 : Clarifier les rôles respectifs des différents portails

publics dans la publication de la jurisprudence

Proposition 28 : Clarifier les rôles respectifs des différents portails publics dans la publication de la

Le portail européen a la même vocation généraliste que Légifrance, mais il ne proposera par définition que des métadonnées ECLI comme critè