Pris dans l’étau des contraintes budgétaires, l’État français songe à monétiser les données publiques. L’annonce de la nouvelle, dans Les Échos la semaine dernière, a fait sauter plus d’un partisan de la gratuité des données. Comme toute pampa récemment foulée par une poignée (grossissante) d’acteurs, l’Open Data est un terrain d’expérimentation trop récent pour que l’on puisse trancher de façon définitive.
La prudence est d’autant plus de mise que la gratuité relève aussi de la position de principe. Les puristes prônant son strict respect, au nom de la transparence, conformément aux 10 principes de l’Open Data. Parmi les arguments avancés de part et d’autre, certains tiennent la route, d’autres semblent plus bancals ou incertains.
Olivier Schrameck, conseiller d’État et membre de la Commission sur la rénovation et la déontologie de la vie publique, a mis en avant l’effet stimulant auprès des (nombreuses) administrations récalcitrantes : “Si l’on veut vraiment faire avancer les choses, il faut faire sauter certains blocages. Or l’information a un prix. Si l’on veut inciter les administrations à participer au mouvement de libération des données, il faut certaines contreparties.”
Le Canadien David Eaves, conseiller auprès de plusieurs institutions pour l’ouverture des données, doute de l’efficacité de la carotte €€ :
Les administrations sont inquiètes de l’ouverture des données souvent parce qu’elles ne veulent pas que le public y accède. Dans certains cas, elles ne pensent pas que les gens comprendront les données, ou elles refusent qu’ils les analysent ou les utilisent pour évaluer sa performance, parfois elles estiment juste que ce n’est pas les oignons du public.
Très peu de gouvernements ont essayé de monétiser leurs données et les écrits académiques suggèrent fortement qu’ils n’ont jamais fait d’argent avec.
Gilles Babinet, fondateur de Captain Dash, une startup qui manipule la donnée au quotidien, avançait aussi le manque d’intérêt financier : “Aucun autre État n’a réussi jusqu’ici à vendre massivement des données. Les revenus se chiffrent en centaines d’euros.”
“C’est faux”, tranchent en cœur Claire Gallon, de LiberTIC, une association pionnière en France sur l’Open Data, et Simon Chignard, auteur de L’Open Data, comprendre l’ouverture des données publiques.
Depuis la circulaire Fillon du 27 mai 2011, la gratuité est un principe fondamental, mais un certain nombre d’établissements publics administratifs ne sont pas concernés.
Certains, comme l’IGN, Météo France ou l’INSEE tirent une part de leur financement de la vente de leurs données. Ainsi, l’IGN en obtient 16 millions d’euros, l’INSEE 9 millions. Certes cela représente une faible part de leurs budgets, respectivement 134 et 434,6 millions d’euros, mais on est loin des “centaines d’euros” de l’ancien président du Conseil National du Numérique. “Ces établissements qui ne sont pas concernées craignent une extension du périmètre”, souligne Claire Gallon, qui note au passage que les données vendues ne sont pas forcément de grandes qualité.
Dans son rapport 2011, l’IGN avait indiqué le coût de la gratuité de la donnée géographique publique, à laquelle l’établissement est désormais contraint : “les recettes tirées des ventes de licences d’accès aux données numériques passent de 37,82 M€ à 17,25 M€, soit un manque à gagner important de 20 M€. L’augmentation de la subvention de l’Etat (qui passe entre 2010 à 2011 de 79,38 M€ à 83,58 M€ (soit + 4,2 M€, + 5,2%) ne compense pas la baisse des recettes liée à l’ouverture de la politique de diffusion.” Alors que le gouvernement tire la langue pour boucler le budget, la modification du paramètre laisse augurer de joyeuses guérillas.
Interrogé par Owni sur son imprécision, Gilles Babinet a justifié : “C’est un fait avéré : l’État ne parvient pas à vendre des données. Ses agences y parviennent mieux, même si ce n’est pas la gloire. Les données géographiques (réseaux) et de météo se vendent effectivement mais à mon sens, c’est une aberration car cela limite le potentiel économique qu’elle recèlent.” En résumé, si l’information a effectivement un prix comme le mettait en avant Olivier Schrameck, il n’est pas sûr que la meilleure façon d’avoir un retour sur investissement soit de vendre directement les données. Regards citoyens, association qui milite pour la transparence en politique, notait ainsi :
Les données produites pour le bon fonctionnement des services publics et publiables en l’état n’ont aucune raison de pouvoir être soumises à redevance. Mais on peut comprendre que le formatage, le nettoyage, l’anonymisation ou la mise à jour régulière de certaines données puissent avoir un coût.
Vient ensuite la question de l’intérêt économique de ces redevances : ne vaudrait-il pas mieux stimuler gratuitement l’innovation et donc notre système économique par la mise à disposition libre des données ? [...]
Toutefois, il ne fait aucun doute qu’en ouvrant l’accès au plus grand nombre, l’État maximise le potentiel de réutilisations. Le manque à gagner viendrait plutôt du fait de restreindre les réutilisations à un petit nombre d’acteurs qui favoriserait des monopoles.
“L’Open Data a beaucoup été poussé sur le volet économique, et pas la démocratie et la transparence, poursuit Claire Gallon, mais alors que ces effets s’observent sur du moyen et du long terme.” Pour juger des retombées, il faut picorer des analyses à droite à gauche. Et de citer une étude de 2010 sur les bénéfices de l’ouverture des données officielles des adresses danoises, suite à un accord en 2002. Elle a permis de créer 48 entreprises et 90 emplois, le montant du bénéfice financier s’élève à 62 millions sur la période 2005-2009, et le bénéfice social à 14 millions en 2010. Ou encore la Catalogne, où “l’ouverture a généré des économies de 500h mensuelles de travail et un retour sur investissement en 4 mois.”
Toutefois, pour David Eaves, les conséquences pour les entreprises ne sont pas noires ou blanches :
Si votre business est basé sur un set de données que vous payez et qu’il devient libre, alors il souffrira peut-être comme la barrière à l’entrée est abaissée. En revanche, monétiser les données nuirait aux consommateurs en élevant les coûts des services et en les rendant plus difficilement compétitifs.
Des businesses particuliers pourraient y perdre ou y gagner dans un tel scénario, mais les entreprises dans leur ensemble en bénéficieraient, car plus de données libres permettraient d’avoir plus d’opportunités d’améliorer les services, de fournir des analyses, etc.
Simon Chignard, pour qui le “tout gratuit est impossible”, prône du coup une position intermédiaire :
Pour certaines données qui demandent une infrastructure de mise à disposition particulière, je pense notamment aux API des infos temps réel pour les transports, on peut imaginer des modèles mixtes. Gratuit pour les développeurs en dessous d’un certain nombre de requêtes, puis payant pour les plus gros utilisateurs. Après tout, c’est bien ce que Google lui-même a mis en place pour son service de cartographie. En procédant ainsi, on peut espérer faciliter l’innovation par de nouveaux entrants tout en faisant contribuer les plus gourmands …
En revanche nous a-t-il rappelé, opérer un distingo entre les usagers qui font une utilisation commerciale ou non n’est pas possible, depuis la transposition en 2005 d’une directive européenne. Elle précise que “les informations publiques, non nominatives, provenant d’organismes publics ou d’entreprises privées exploitant un service public doivent pouvoir être rendues accessibles et réutilisées à des fins commerciales ou non, d’une manière non discriminatoire et non exclusive, et à des coûts qui n’excèdent pas leur coût de production.”
On peut aussi envisager de privilégier la gratuité des données utiles pour le bon fonctionnement démocratique, mais comme le fait remarquer Gilles Babinet :“vu d’où nous partons, les limites ne sont pas prêtes d’être atteintes rapidement.” De plus, il faut être capable d’établir une hiérarchie a priori.
Complexe, soumis à un contexte économique fragile, le débat sur la gratuité (ou non) de l’Open Data en France devrait donc également ressurgir pour une raison de politique très basique : après la circulaire Fillon ayant officiellement lancé la mission d’ouverture de données publiques Etalab, l’Open Data est devenu un non-sujet au gouvernement. Comme le déplore Claire Gallon :
Il y a peu de portage politique en France, alors ça revient en force, la question est posée depuis la circulaire Fillon…
Sylvain Parasie est sociologue, maître de conférence à l’Université Paris-Est / Marne-la-Vallée et chercheur au laboratoire techniques, territoires et société (LATTS) de l’École Nationale des Ponts et Chaussées. Ses recherches portent sur “la publicité, le journalisme en ligne, les activités en ligne, et plus largement les implications sociales et politiques associées à l’usage des nouvelles technologies dans le monde des médias et de la communication”. Répondant aux questions de journalismes.info, il analyse les difficultés françaises quant à l’ouverture des données publiques.
Premièrement, il convient de rappeler que l’ouverture des données publiques n’est pas quelque chose de vraiment neuf, c’est un processus qui s’est développé aux États-Unis et en Angleterre depuis pas mal de temps, dans les grandes villes notamment. A ce titre, Washington et Londres peuvent être considérées comme des références, parce qu’elles sont en avance mais aussi parce qu’elles mettent énormément de données à disposition de tous. En France, il est clair que l’on a un retard à combler à ce niveau là.
Ce qui a posé le plus de problèmes, c’est la question des droits sur les données publiques. Quels usages en faire ? Doit-on permettre une récupération par les entreprises privées ? Ces questions ont longtemps fait débat, notamment dans le cadre de la licence. Certains souhaitaient que l’on puisse en faire une réutilisation commerciale, d’autres étaient plus réticents à l’idée qu’elles puissent être sources de profits. En même temps, il était compliqué d’en faire des services, de développer des applications sans intermédiaires privés et donc sans utilisation commerciale. Ce qui a été finalement tranché, c’est grossièrement que les organismes publics doivent s’assurer de la qualité de ces données, et laisser ensuite les intermédiaires les réutiliser, même si les débats perdurent.
Pour l’instant, il est très pauvre. On a accès à des informations sur la liste des jardins, des kiosques… Il n’y a pas vraiment de cohérence. Rien à voir avec ce qui se fait à Chicago par exemple. Là-bas, les bases de données sont vraiment impressionnantes. On a par exemple accès aux noms et aux salaires de tous les employés des entreprises de transport public, et ces données ne sont même pas anonymisées ! Il y avait d’ailleurs eu un petit scandale récemment, puisque un “1″ avait été rajouté malencontreusement devant un chiffre… La personne concernée a dû vivre un véritable cauchemar pendant quelques jours ! On trouve aussi tout ce qui concerne l’inspection alimentaire, les permis de construire, les stations de polices ou de pompiers, les crimes quartier par quartier…Rien à voir donc.
Pour être honnête, il convient de rappeler que le pouvoir des villes en France et aux États-Unis n’est pas du tout le même. La mairie de Paris ne dispose pas forcément d’autant de données que celle de Chicago. Pour les transports par exemple, la RATP n’est pas directement reliée à la mairie, contrairement à celle de Chicago. Deuxièmement, il faut aussi dire que Chicago a été une ville laboratoire de l’ouverture des données publiques. La ville a commencé à diffuser massivement, bien avant l’arrivée du web, dès les années 1960 à propos des données criminelles. En France, ces données sont toutes centralisées par le ministère de l’Intérieur ; on a accès aux statistiques département par département mais pas à l’échelle du quartier. À Chicago, on peut savoir précisément quel crime a été commis et où depuis les années 1990. Comme le taux de criminalité était particulièrement élevé, le maire avait mis en place une police de proximité. Chaque policier était responsable d’un bloc de la ville et devait tenir des réunions publiques régulières pour informer les habitants des quartiers. La diffusion par le web s’est faite dès 1996. L’administration n’a donc pas du tout le même rapport aux données, il n’y a pas de centralisation comme en France ; là bas, ces données sont des outils pour la police municipale. La comparaison est donc un peu difficile. Les mairies ont en France plus de mal à avoir ces données ; il y a un réel problème d’accessibilité. Mais au-delà, on peut se demander s’il n’y a pas une différence de rapport au citadin. Publier les données nominatives avec les salaires des fonctionnaires serait par exemple absolument inouï ici.
Pour l’instant, au niveau du contenu on ne sait pas vraiment… Mais vous avez raison de soulever le problème, il s’agit d’une volonté politique, qui peut être remise en question dans la mesure où il existe des réticences au sein du pouvoir. Après il convient de ne pas oublier que l’on ne part pas de rien non plus, que l’Insee existe depuis 1946 et propose des données de très bonne qualité. Il est possible effectivement que certaines données soient sujettes à caution, notamment sur les postes supprimés dans l’enseignement, ou concernant les élections : ces données sont diffusées par le ministère de l’Intérieur, mais juste à un moment, et il faut souvent se tourner vers les travaux des chercheurs pour les obtenir après. Alors oui, je pense globalement que l’État fait preuve de bonnes volontés avec Etalab, mais il reste en France beaucoup d’efforts à faire à propos de la transparence. Et je suis également persuadé qu’il faut continuer l’activité de lobbying pour l’ouverture des données publiques, comme le font remarquablement Regards Citoyens auprès du Sénat ou de l’Assemblée Nationale par exemple.
Oui, mais se pose le problème de l’accessibilité. Et pour rendre ces données brutes accessibles, il faut des intermédiaires. C’est là qu’intervient le journaliste. L’activité de lobbying des militants de l’Open Data a besoin derrière de personnes pour rendre les données obtenues accessibles à tous. Et c’est sûrement là que se trouve le principal problème en France.
Encore une fois, si l’on compare aux États-Unis, on tient compte de l’utilisation de bases de données dans le journalisme depuis beaucoup plus longtemps. Dès les années 1960, on trouvait là bas ce que l’on appelait les CAR (computer associated reporter). On peut situer l’origine au moment des émeutes de Détroit, en 1967. On a commencé à utiliser les premiers ordinateurs pour faire des questionnaires automatisés. Les gens dans la rue étaient principalement des noirs, et personne ne comprenait vraiment leurs revendications. Grâce à ce travail, on a pu montrer que contrairement aux idées reçues, la majorité des émeutiers étaient des gens qui avaient un assez bon niveau d’étude. Ensuite, cela s’est développé vraiment à partir de la fin des années 1980, où beaucoup de journalistes étaient aussi un peu statisticiens, et traitaient de sujets comme l’éducation, la démographie ou la criminalité, basés quand même essentiellement sur des chiffres.
En France, la culture est encore une fois très différente, le journalisme est beaucoup plus littéraire, engagé. Il est vraiment nécessaire de trouver des personnes ayant l’habitude de manipuler des bases de données, capables d’en faire des applications. Et pour l’instant, à part OWNI, on ne trouve pas grand monde… Il existe des initiatives comme nosdeputes.fr, mais ce sont des initiatives purement citoyennes ; elles n’émanent pas directement de la presse comme aux États-Unis. Même en Angleterre, on trouve beaucoup de journalistes qui s’intéressent par exemple aux comptes-rendus du Parlement et se spécialisent dans l’administration et l’État ; et ce même avant l’arrivée de l’informatique. Ce genre de travaux est peu développé en France, peut être que la défiance vis-à-vis du pouvoir est plus forte là -bas, que les citoyens sont plus demandeurs de transparence. Avec les quantités de données disponibles, il faut avoir la bonne idée journalistique à la base pour pouvoir en extraire une information ; il faut une interprétation objective des données, un peu comme le font les chercheurs en sciences sociales. On voit par exemple se développer des partenariats, des passerelles entre le journalisme et les sciences sociales aux États-Unis, mais pas en France pour l’instant.
Obtenir la diffusion de certaines données peut rester compliqué, les administrations doivent aussi y trouver leur compte. Un des arguments du lobbying Open Data, c’est la transparence bien sûr, mais aussi la rationalisation, que l’administration soit plus efficace, qu’il faut améliorer le rapport entre l’État et le citoyen. La situation financière des médias en France peut aussi constituer une sorte de barrière. Je ne pense pas qu’il y ait de volonté de censure. Le problème pour obtenir une réelle situation de transparence est à mon sens à chercher du côté des intermédiaires. L’État bouge, doucement, mais bouge malgré tout, et c’est du côté des journalistes qu’on peut observer au final le plus de retard. Et enfin, il ne faut pas oublier le rôle de l’internaute non plus. On peut expliquer le succès d’un site comme Everyblock dans le sens où il est devenu de plus en plus communautaire. Les citoyens l’utilisent par eux-mêmes; ils ont su en dépasser le côté austère. Au final, le processus d’ouverture des données publiques est clairement un jeu à 3, entre l’État, le journaliste et l’internaute lui-même. Les principales difficultés de la France sont donc à mon sens à chercher à la fois du côté d’une administration trop centralisée, d’un journalisme trop littéraire et d’un manque d’intérêt de la part de l’internaute pour l’instant.
Libérer (partiellement) les donnés est une chose, mais comment en faire profiter les citoyens ? Si du coté administratif le mouvement est enclenché, il reste encore à sensibiliser un public plus large sur l’importance de l’open data. Comment donner vie à ce matériau et libérer les kyrielles de gigas qui croupissent dans leur tableaux CSV ?
Certes, comme le souligne Simon Rogers du Guardian (fr/en) des logiciels gratuits tels Google Charts, Google Fusion Tables, Many Eyes ou Timetric peuvent être utilisés par tous pour produire des graphiques et des visualisations simples. Toutefois, la majorité des citoyens n’a ni le temps ni les moyens de décortiquer un tableau Excel de 5000 entrées ou de déchiffrer une base de données brutes. Il s’agit de saisir les opportunités, autant sociales qu’économiques engendrées par ce déluge de données réutilisables en inventant des outils numériques capables de les digérer pour les rendre intelligibles, utiles et accessibles à tous. L’action conjointe des développeurs, graphistes et journalistes pour mettre en valeur les stocks de données est un enjeu majeur de la libération et de la réflexion sur les données.
A ce titre l’Open Data Challenge marque une étape symbolique dans le développement de ce nouveau champ de recherche. Piloté par l’Open Knowledge Fundation, soutenu par Simon Rogers, Tim Berners-Lee, Google, IBM et Microsoft, ce concours européen a collecté en deux mois près de 430 participations venues de 24 pays de l’Union Européenne en faisant plancher graphistes, développeurs et journalistes sur l’opportunité de créer ensemble des outils capables d’optimiser la libération des données auprès des citoyens.
Cliquer ici pour voir la vidéo.
20 000 euros de prix ont été remis à des plateformes innovantes de crowdsourcing citoyen pouvant appuyer le travail du data journaliste ou à des applications de visualisations de données utiles au quotidien. Aperçu des gagnants.
Znasichdani.sk sous-titré “Who makes business with the State ?” remporte le 1er prix des applications avec son interface simple qui révèle quelles personnalités influentes se cachent derrières chaque contrat signé entre l’État Slovaque et une entreprise, mettant ainsi à jour les conflits d’intérêts et autres soupçons de corruption. Malgré une licence fermée le développement d’un tel outil d’open data appliqué à l’échelle européenne serait une formidable opportunité en matière de transparence.
Dans le même esprit Open Corporate “The open database of the coporate world” est une plateforme de crowdsourcing mondiale qui, utilisant des outils de scraping a pour ambition de lier des données gouvernementales à celles d’entreprises pour comprendre la nature de leurs connexions.
Cliquer ici pour voir la vidéo.
Dans la catégorie outils qui “augmentent” le quotidien on retient par exemple le “Live London Underground Tube Map“, application anglo-saxonne qui indique instantanément la position exacte de toutes les rames du métro londoniens sur une carte du réseau. Elle donne à l’usager la possibilité de saisir le trafic global en temps réel et ainsi gérer ses trajets en fonction des ralentissements, accidents ou stations fermées. Une idée pas encore réalisable à Paris puisque la RATP bloque l’accès à ses données.
Dans le même esprit, l’application de visualisation de données “Bike Share Map” (UK) disponible dans une trentaine de villes dans le monde propose de visualiser l’emplacement des bornes et le nombre de vélos partagés disponibles sur chaque bornes en temps réel. Ici non plus, les données ne sont pas disponibles pour la ville de Paris qui semble avoir retiré l’autorisation d’utiliser les données des Vélib.
Toujours dans la catégorie transport en commun, des horaires bus de Manchester version “augmentée” :
De nombreuses souscriptions s’appuyant sur les séries de données européen récemment libérés ont été soumises. L’Open Knowledge Fundation a notamment retenue une application danoise qui permet d’envisager didactiquement l’ampleur de l’activité législative de l’Union Européenne. Sujets par sujets, de la santé aux transports en passant par le nucléaire et la culture, on visualise assez simplement les décisions prises et l’évolution des politiques menées par l’UE de 1950 à aujourd’hui.
A une échelle plus locale, on retient l’application néerlandaise Politiek Inzicht qui propose une visualisation par nuage de mots clés de la sémantique des interventions, des rapports et propositions de lois émises par chaque députés allemands sur un temps long. Se dégagent alors les sujets les plus abordés (“trending topics”), l’évolution du discours et des positions de chaque député du Bundestag.
Les propositions de visualisation sont également très instructives, jetez un oeil à celle-là qui cartographie les émissions de CO2 en Europe en géolocalisant usines et centrales électriques, principaux lieux d’émissions. Une carte offset montre où les entreprises européennes rachètent leur “compensation carbonne” dans le monde.
Le reste des applications pleines de promesses est visible sur publicdata.eu.
]]>Dans ce contexte est sorti un rapport très complet, intitulé Pour une politique ambitieuse des données publiques produit par quatre élèves de l’école des Ponts ParisTech : Romain Lacombe, François Vauglin, Pierre-Henri Bertin et Alice Vieillefosse.
Il fait la synthèse des enjeux de l’open data et fournit une série de 16 recommandations pour la mise en oeuvre de la politique de l’État. Logique, puisque ces élèves sortent du Master Action Publique de l’école des Ponts. Le rapport a été remis le 13 juillet dernier à Éric Besson, ministre de l’Industrie, de l’Énergie et de l’Économie numérique .
Romain Lacombe, qui travaille aujourd’hui à Etalab en tant que chargé de l’innovation et du développement, explique à OWNI la genèse et le but de ce rapport.
“Après des études scientifiques à l’école Polytechnique, j’ai intégré le corps des Ponts et suis parti terminer mes études au MIT [ndlr : Massachussets Institute of Technology, une prestigieuse université américaine] ; après mon diplôme, j’ai lancé en 2008, puis cédé début 2010, une startup d’applications mobiles géolocalisées, implantée dans la Silicon Valley.
Du fait de ma double culture, celle du numérique et celle des politiques publiques, l’ouverture des données m’est apparue, à mon retour en France, comme un des leviers majeurs à travers lesquels l’État pouvait encourager l’innovation. Pour apporter une contribution, modeste mais je l’espère utile, au développement de l’Open Data en France, j’ai proposé à l’école des Ponts ParisTech, à la fin de l’été 2010, de réaliser une étude sur les données publiques.
L’étude portait principalement sur l’économie des données publiques, mais nos expériences complémentaires nous ont poussé à nous intéresser à toute la largeur du spectre des enjeux qui entourent l’open data.”
“L’objectif de notre étude était d’identifier des stratégies et des modèles économiques, desquels l’État puisse s’inspirer pour faciliter l’ouverture des données publiques et encourager leur réutilisation. Il s’agit donc d’une réflexion sur les leviers d’action de l’état en faveur de l’open data, et les raisons qui pourraient motiver ce choix de politique publique, concernant aussi bien ses données que celles des autres acteurs concernés, des établissements publics aux collectivités territoriales.
À partir d’un état des lieux des expériences internationales et locales, nous avons identifié les enjeux et les acteurs de l’open data, ainsi que les principaux freins subsistant à l’ouverture et la réutilisation des données, notamment techniques, juridiques, économiques et organisationnels ; et nous avons esquissé des solutions pour les dépasser.
Il s’agissait en particulier d’identifier des modèles économiques permettant d’assurer à la fois le soutien à l’innovation et à la réutilisation, et la sauvegarde des équilibres financiers du service public permettant la production de ces données.”
“Ce travail de prospective et nos échanges fructueux avec les différents acteurs du sujet ont abouti à la formulation de 16 propositions pour une politique ambitieuse des données publiques, présentées au Ministère de l’Enseignement supérieur et de la Recherche et au Ministère de l’Industrie, de l’Energie et de l’Economie numérique.
Elles se déclinent en recommandations très concrètes sur des sujets comme les formats ouverts et l’interopérabilité, la gratuité de réutilisation, l’enrichissement « bottom-up » des données par la communauté, une stratégie nationale avec l’ensemble des acteurs publics, et l’émergence d’un véritable écosystème des données publiques.”
Les 16 propositions du rapport évoquent en effet quelques idées ambitieuses et rarement pointées, notamment :
- la nécessité de formation et de pédagogie auprès des différents acteurs publics qui devront intégrer la production et publication de données dans leur travail : c’est la première proposition du rapport. OWNI avait déjà eu l’occasion de constater à quel point le manque de connaissances et de consignes relatives aux données publiques sont des obstacles à leur accès.
- la question des formats est abordée à plusieurs reprises. La proposition 2 y est même entièrement consacrée :
encourager l’utilisation de formats facilement réexploitables, qui respectent les normes d’interopérabilité et de “lisibilité machine”.
La question est en effet cruciale : d’après les données issues de l’étude réalisée par François Bancilhon (Data publica) et Benjamin Gans (INRIA) et publiées par Proxima mobile le 26 juillet dernier, sur les 6,2 millions de fichiers de données publiques disponibles en ligne, seuls 11% le sont sous des formats exploitables.
- faire de la gratuité la norme. Le paiement d’une redevance pour accéder à certaines séries devient une exception. Une proposition à laquelle les auteurs du rapport sont arrivés de manière empirique :
Notre analyse économique nous mène à conclure que la gratuité la plus large, y compris pour une réutilisation des données à titre commercial, favorise l’innovation et les nouveaux usages, et contribue à financer le service public par l’impôt généré ; c’est le modèle économique optimal pour les données publiques.
- Plusieurs propositions visent à faire émerger un écosystème des données publiques, mettant ainsi en valeur que l’open data est une politique qui doit s’inscrire dans la durée et dans les habitudes de l’administration.
Il est ainsi préconisé que “l’ensemble des Contrats d’Objectifs et de Moyens des Etablissements publics et des Délégations de Service Public contractées avec des entreprises abordent explicitement le statut et les droits de réutilisation afférant aux données générées dans leur cadre”. Les données liées à de nouveaux contrats signés pour la délégation du service public de l’eau, des transports pourraient ainsi être rendues publiques…
Comme l’essentiel des initiatives en open data, la philosophie portée par ce rapport reste celle d’une approche “top down” où le choix des données rendues publiques appartient à l’organisme qui les met en ligne. Ce qui n’est pas la seule voie : ouvrir les données publiques, c’est aussi les “rendre” aux citoyens grâce à qui elles sont produites.
C’est ce qu’explique ici Jean-Marc Manach et c’était l’idée de la campagne du Guardian “Free our data” qui a amené le gouvernement britannique à se lancer dans l’open data.
Dans le rapport, l’alternative inverse est même présentée comme un danger. Par exemple, le rapport évoque trois scénarios possibles d’attitude de l’État face à l’ouverture des données publiques : inertie, capture et symbiose.
Dans la cas de l’interie (c’est-à-dire le développement de l’offre de données publiques à son rythme historique) un des inconvénients évoqués est “le risque fort de manquer les opportunités stratégiques de l’ouverture des données publiques” et par là “fragiliser les institutions productrices de données” :
“la frustration des citoyens et consommateurs face à la difficulté d’accès à des données qui leur importent pourrait les pousser à développer leurs propres solutions ad hoc, par exemple de manière collaborative. Bien que louable si ces solutions évoluent vers une relation public-privé efficace, ce développement comporte une part de risques, notamment celui de la perte de légitimité des institutions qui historiquement ont produit des données importantes pour les citoyens. Le risque serait alors grand de voir s’effriter un tissu d’expertises utiles, et la qualité des services aux citoyens pourrait en souffrir.”
Lâcher le monopole de production des données n’est pas pour demain.
Ainsi, la seule fonctionnalité “bottom-up” (la demande ou l’initiative vient des citoyens) proposée dans le rapport se fait par le biais du crowdsourcing et reste relativement limitée.
L’État devra donc réfléchir à la possibilité de passer d’un modèle “à sens unique” (diffusion des données du secteur public vers la société civile) à un modèle d’écosystème où les données de l’État et des collectivités, ouvertes à la société civile, pourraient être enrichies en retour de façon collaborative (“crowdsourcing”).
Le rapport ne recommande pas la mise en place, sur le site d’ouverture des données, d’un formulaire permettant de demander un jeu de données spécifiques, par exemple. Dans les sites open data des gouvernements, la Suède est d’ailleurs la seule à le proposer.
Ce rapport est une étude remise à un ministère : il ne représente pas la feuille de route d’Etalab ni même la politique globale du gouvernement français autour de l’ouverture des données publiques, même si de nombreux points sont communs (la gratuité des données par exemple).
Son contenu est cependant assez révélateur de la philosophie qui prévaut actuellement dans les politiques et initiatives open data et qui constitue une façon bien spécifique de voir l’ouverture des données publiques. Les données publiques commencent à être libérées en France. Mais d’une certaine manière.
La fondation iFRAP s’est récemment intéressée à l’ouverture des données publiques en mettant l’accent sur “la propension légale ou coutumière (des États) à diffuser, sans demande expresse particulière émanent de leur société civile, des informations administratives à forte valeur ajoutée de façon à accroître leur degré de transparence”. D’où la distinction faite entre “open data” et “open government”.
Le premier consiste à “publier sur des sites dédiés des jeux de données (…) dans des formats susceptibles d’être ensuite réutilisés gratuitement par le public (société civile, entreprises) pour un usage propre”. Le second renvoie à “la capacité de l’administration [de] mettre de façon directe et spontanée à la disposition du public un certain nombre d’informations, lorsque celles-ci sont disponibles, sans sollicitation préalable, [soit] une politique de divulgation ‘proactive’ (Proactive Disclosure Policy)”. État de fait d’un côté, dynamique et volonté de le faire de l’autre. L’auteur de l’étude, Samuel-Frédéric Servière résume :
L’e-démocratie du point de vue des citoyens renvoie à l’open data, l’e-démocratie du point de vue des gouvernants à l’open government.
La fondation iFRAP, spécialisée sur les politiques publiques et les réformes en a tiré un classement. OWNI a utilisé les mêmes données, fournies par l’OCDE, pour visualiser les États qui s’ouvrent. Deux variables sont prises en comptes : le cadre juridique dans lequel les données sont publiées et le moyen utilisé pour les publier. L’OCDE s’est basés sur une typologie de 12 données :
Légende : Le chiffre qui apparaît à côté du nom de chaque pays correspond à un indice décrivant l’encadrement législatif de la publication ouverte de 12 types de données.
La Hongrie, la Turquie et le Portugal ne sont pas les chantres habituels de l’open data. Ni les premiers pays auxquels on pense à propos d’open government. Idem pour la Russie, ce qui ne signifie pas forcément que les règles théoriques soient suivies d’effets… Ils disposent pourtant d’une politique de transparence encadrée par la loi. Parmi les douze catégories retenues par l’OCDE, onze sont l’objet d’une obligation législative de publication en Hongrie. Ce dispositif législatif stricte est typique des “pays « jeunes », soit en transition démocratique pour lesquels la vertu de transparence de l’action publique permet de constituer un volet de la lutte anti-corruption, soit récemment émancipés (…) et donc particulièrement réceptifs aux technologies internet” analyse la fondation iFRAP.
Absence de dispositif législatif n’est donc pas synonyme d’absence de pratique comme le révèlent les exemples anglosaxons. En Grande-Bretagne, les pratiques coutumières prédominent, témoin d’une certaine maturité démocratique et de la tradition de la Common Law, la coutume soit le droit non codifié.
Les pays qui publient le moins parmi ces douze données sont assez inattendus : le Luxembourg et la Pologne (huit données non-publiées). Selon Samuel-Frédéric Servière, certaines données sont parfois accessibles très facilement, sans pour autant être publiées.
En Suède, les salaires des fonctionnaires ne sont pas disponibles en ligne, mais peuvent être obtenus par téléphone. La transparence fait partie de la tradition.
Une tradition et des habitudes qui ne sont pas toujours compatibles avec les pratiques dominantes concernant l’ouverture des données par les États, ce qui a valu à la Suède un rappel à l’ordre pour “non-transposition de la directive européenne de 2003 relative à l’accès à l’information publique”.
Légende : Le chiffre qui apparaît à côté du nom de chaque pays correspond à un indice sur la disponibilité des données.
Autre différence notamment, la disponibilité des données mises en ligne. Dans la majorité des cas, ce sont les sites des ministères et des agences gouvernementales qui fournissent le plus de données. La Suède fait figure d’exception : les données publiques sont autant disponibles sur un portail central que sur les sites des ministères, signe là encore d’une importante accessibilité des données. La redondance de publication des données concourent aussi à leur pérennité.
De grands écarts existent entre les différentes données publiées. Seuls 5,5% ne publient pas les documents relatifs au budget et aux institutions et à leur fonctionnement alors que 64% des Etats interrogés ne publient pas les listes des fonctionnaires et leur salaires. Ceux qui rendent ces données accessibles sont engagés dans la lutte contre la corruption, à l’instar du Mexique ou de l’Italie qui ont un arsenal législatif rigoureux.
États en lutte contre la corruption, états post-autoritaires qui érigent des barrières législatives pour encadrer l’ouverture des données et États qui les publient par tradition ou conviction forment les trois grandes catégories des “open governments”.
Observant que les données relatives aux équipements hospitaliers sont dispersées entre plusieurs sites, j’ai décidé de les récupérer dans une base unique en y ajoutant des données de géolocalisation afin ensuite d’essayer de les exploiter.
La marche à suivre est la suivante:
1. Récupérer sur la base Platines la liste des codes FINESS qui identifie les établissements sanitaires et sociaux. C’est le seul site où il est possible de les trouver facilement.
2. À l’aide de ces codes, le site finess.sante.gouv.fr nous fournit les différentes adresses et raisons sociales.
3. On nettoie un peu les adresses et à l’aide de Google Map on essaie de récupérer les informations de géolocalisation (s’agissant d’un travail préparatoire on ne se préoccupe pas des ratés, on pourra chercher les adresses manquantes dans un second temps)
4. La base Platines nous donne enfin, toujours à l’aide des codes finess, les caractéristiques et équipements des différentes structures.
Vous trouverez les différents scripts ruby ici. Les données des adresses des hôpitaux sont là.
Retrouvez l’application en plein écran.
Pour la suite il s’agit de trouver aux mieux comment exploiter ces données, l’application la plus simple consiste à permettre de localiser l’équipement le plus proche de chez soi. On pourrait aussi, par exemple, croiser ces données avec les informations de peuplement pour afficher les zones les mieux desservies en équipement.
Si vous réutilisez ces données ou avez des suggestions n’hésitez pas à laisser un commentaire !
—
Publié initialement sur le Datablog d’OWNI
Illustration Flickr robnguyen01
Illustration de Une : Marion Boucharlat
Retrouvez les articles du dossier : Carto des déserts médicaux et Grossier clin d’oeil de l’UMP aux médecins
]]>Dans un récent article publié par le New York Times, le professeur économiste Richard Thaler en appelle à plus de transparence quant à l’utilisation commerciale de nos données.
Mais il en appelle surtout à la possibilité de réutiliser nous-mêmes nos propres données, ce qui est loin d’être le cas actuellement.
Et la situation ne pourra évoluer que si les utilisateurs sont de plus en plus nombreux à prendre conscience du problème en mettant alors la pression sur les structures qui exploitent ces données.
Show Us the Data. (It’s Ours, After All.)
Richard Thaler – 23 avril 2011 – The New York Times (Traduction Framalang : Goofy et Don Rico)
Nul ne sait mieux que moi ce que j’aime.
Cette affirmation peut passer pour une évidence, mais la révolution des technologies de l’information a généré une liste croissante d’exceptions. Votre épicier sait ce que vous aimez manger et peut probablement vous donner des conseils judicieux et appropriés sur d’autres aliments qui pourraient vous plaire. Votre opérateur téléphonique sait qui vous appelez, et votre téléphone sait où vous êtes allé. Quant à votre moteur de recherche, il peut anticiper vos désirs avant même que vous ayez achevé de les saisir au clavier.
Les entreprises accumulent des masses considérables d’informations sur ce qui vous plaît ou pas. Mais ce n’est pas seulement parce que vous êtes digne d’intérêt. Plus elles en savent sur vous, plus cela leur rapporte d’argent.
La récolte et la diffusion de ces informations soulève une quantité de problèmes de confidentialité, bien entendu, et un tandem de sénateurs des deux camps, John Kerry et John McCain, a proposé de les régler avec leur Commercial Privacy Bill of Rights (Ndt : Déclaration des Droits à la confidentialité dans le commerce). Protéger notre vie privée est important, mais la démarche des deux sénateurs fait l’impasse sur un problème plus important : elle n’inclut pas le droit d’accès à nos propres données personnelles. Non seulement nos données devraient être protégées, mais elles devraient aussi être disponibles pour que nous puissions les utiliser selon nos propres besoins. Après tout, ces données nous appartiennent.
Voici un principe de base : si une entreprise commerciale collecte électroniquement les données des utilisateurs, elle devrait leur fournir une version de ces informations facile à télécharger et à exporter vers un autre site Web. On peut résumer cette démarche ainsi : vous prêtez vos données à une entreprise, et vous en voudriez une copie pour votre usage personnel.
Le gouvernement de la Grande-Bretagne vient d’annoncer une initiative intitulée « mydata » qui va dans ce sens (j’ai travaillé comme consultant pour ce projet). Bien que les lois britanniques demandent déjà aux entreprises de donner à leurs clients des informations sur l’utilisation de ces données, le programme vise à fournir des données accessibles via un ordinateur. Pour commencer, le gouvernement travaille en concertation avec plusieurs grandes banques, les émetteurs de cartes de crédit, les opérateurs et revendeurs de téléphones mobiles.
Pour comprendre comment un tel programme pourrait améliorer la façon dont fonctionne le marché, songez par exemple à la façon dont vous choisissez un nouvel abonnement à un service de téléphonie mobile. Deux études ont démontré que les consommateurs pouvaient économiser plus de 300 dollars chaque année en souscrivant un abonnement mieux adapté. Mais pour cela, il faut être capable d’estimer ses besoins en termes de services : SMS, médias sociaux, musique en streaming, envoi de photos, etc.
Il se peut que vous ne soyez pas en mesure de traduire tout cela en mégaoctets, mais votre opérateur lui, en est capable. Bien que certaines informations soient déjà disponibles en ligne, elles ne se trouvent généralement pas encore disponibles dans un format exportable – vous ne pouvez pas les couper-coller facilement sur un autre site, un comparateur de prix par exemple – et elles ne se présentent pas de telle manière qu’il vous soit facile de calculer quel est le meilleur abonnement pour vous.
Si l’on suit la règle que je propose, votre opérateur vous donnerait accès à un fichier comprenant toutes les informations qu’il a récoltées depuis que vous avez un mobile, ainsi que toutes les factures en cours pour chacun des services que vous utilisez. Les données vous seraient remises dans un format utilisable par les créateurs d’applications, si bien que de nouveaux services pourraient voir le jour, proposant aux consommateurs des conseils pratiques (pensez à Expedia, par exemple). Ainsi, ce cercle vertueux créerait des emplois pour ceux qui ne rêvent que de lancer ce genre de nouveaux sites Web.
Avant de se plaindre qu’il est difficile de se soumettre à une telle règle, les entreprises devraient jeter un coup d’œil à une initiative du gouvernement fédéral appelée Blue Button. Cette procédure déjà en vigueur offre aux anciens combattants et bénéficiaires de Medicare (NdT : programme de sécurité sociale pour personnes âgées) la possibilité de transmettre leur dossier médical à un organisme de confiance (le nom « Blue Button » fait allusion au bouton bleu sur lequel peut cliquer l’utilisateur qui désire récupérer ses données).
L’initiative Blue Button se répand déjà dans les applications du secteur privé. Northrop Grumman a développé une application pour smartphone qui permet aux anciens combattants d’accéder à leur dossier médical et de recevoir sur leur téléphone des conseils de santé pour être en bonne forme. HealthVault, un site Microsoft pour l’organisation de ses soins de santé, permet également aux utilisateurs de Blue Button d’y rechercher leurs informations médicales. La possibilité d’accéder à ces différents types de services pourrait sauver des vies en cas d’urgence.
Si le gouvernement est capable de collecter et restituer des informations confidentielles de manière sécurisée et utile, les entreprises privées peuvent en faire autant, ce qui donnera davantage de chances aux consommateurs d’être des clients plus avisés.
Revenons à l’exemple des smartphones. Une fois que le propriétaire d’un téléphone fournit ses informations personnelles à des sites Web tiers, ceux-ci (BillShrink, par exemple) peuvent l’aiguiller vers les abonnements de meilleur rapport qualité/prix. Vous envisagez de changer votre téléphone ? Les sites tiers peuvent vous avertir si votre utilisation risque de s’accroître, en se basant sur l’expérience d’utilisateurs qui ont fait avant vous le même changement.
Si les données personnelles sont accompagnées d’informations détaillées sur les coûts, comme je l’écrivais dans mon dernier article, les consommateurs connaîtront mieux la façon dont ils utilisent vraiment les services, ainsi que leur coût réel. La tarification transparente, elle, donnera un avantage compétitif aux fournisseurs honnêtes et de qualité sur ceux qui ont des pratiques opaques. Ces éléments permettront une croissance économique saine.
Les applications possibles sont innombrables. Les supermarchés, par exemple, savent déjà qu’ils peuvent attirer plus de clients dans leurs clubs de consommateurs en offrant des réductions exclusives à ceux qui en font partie. Ce qui permet aux magasins de connaître les habitudes de consommation des clients et de cibler les bons de réduction d’après leurs achats. Les clients peuvent se désinscrire – mais alors ils perdront leurs réductions.
Exigeons donc que ce soit à double sens. Pourquoi ne pas vous donner, à vous consommateur, quelque chose en échange de votre participation ? Exigez du supermarché qu’il vous fournisse l’historique de vos achats. Il ne se passera pas longtemps avant qu’un entrepreneur astucieux ne vous concocte une application capable de vous indiquer des solutions de remplacement moins coûteuses et plus saines, qui seront aussi bonnes pour votre ligne que pour votre compte en banque. Les applications ne servent pas qu’à économiser de l’argent ; elles pourraient aussi avertir les clients souffrant d’allergies, par exemple, qu’ils achètent des aliments contenant des ingrédients auxquels ils sont sensibles, comme les arachides ou le gluten.
La capacité qu’ont les entreprises à surveiller notre comportement fait déjà partie de notre quotidien, et ce n’est qu’un début. Nous devons évidemment protéger notre droit à la confidentialité, mais si nous sommes malins, nous utiliserons également les données qui sont collectées pour améliorer notre existence.
J’espère que les entreprises américaines suivront l’exemple de leurs homologues britanniques et coopèreront au programme “Mydata”. Sinon, nous exigerons des entreprises qu’elles nous indiquent ce qu’elles savent déjà sur nous. Pour paraphraser Moïse, demandons-leur : “laisse aller mes données, afin qu’elles me servent“.
Article publié sur Framablog sous le titre “Montrez-nous les données ! Ce sont les nôtres après tout…”.
Photos Flickr CC par sparkieblues, par anitakhart et par tj.blackwell
]]>Lundi 16 mai, la CNIL a publié une synthèse (Comment concilier la protection de la vie privée et la réutilisation des archives publiques sur Internet ?) qui me paraît importante dans la mesure où elle confirme une intuition que j’ai depuis longtemps : l’exception culturelle prévue par la loi du 17 juillet 1978 (dite loi CADA) en matière de réutilisation des informations publiques est inutile et vide de contenu juridique réel. De quoi s’agit-il exactement et pourquoi est-ce important ?
Il y a un mois, la Fing dans un billet intitulé « La culture est-elle le parent pauvre de l’Open Data ? », déplorait le fait que :
Les initiatives « open data » dans le monde de la culture semblent en effet encore peu fréquentes.
Et elle avançait une cause juridique pour expliquer cet état de fait :
Il faut aussi dire que la législation n’encourage pas le changement puisque la loi de 1978 permet aux acteurs publics de la culture d’exclure de son champ les données culturelles.
Cette loi de 1978 constitue en France le texte fondamental, qui a introduit en transposant une directive européenne un véritable droit à la réutilisation des données publiques.
Pourtant, comme j’avais déjà essayé de le montrer dans un billet l’an dernier, il existe dans cette loi à l’article 11 une disposition appelée « exception culturelle », permettant aux établissements culturels de sortir leurs données du régime général de réutilisation, en fixant leurs propres conditions:
Par dérogation au présent chapitre, les conditions dans lesquelles les informations peuvent être réutilisées sont fixées, le cas échéant, par les [...] établissements, organismes ou services culturels.
Les motifs avancés pour justifier l’existence de cette exception sont nombreux, mais ils ont été exposés récemment par voie officielle sur C/Blog, le blog du Ministère de la Culture. Il nous est indiqué deux raisons pour lesquelles les données culturelles ne seraient pas des données « comme les autres » :
La nature même de ces données ne peut, sans précaution, être assimilée au vaste ensemble des données publiques administratives assujetties au traitement de droit commun prévu par la loi du 17 juillet 1978. C’est la raison pour laquelle le législateur a instauré une dérogation au principe de libre réutilisation qui assure aux établissements, organismes ou services culturels détenteurs et/ou producteurs de données publiques la possibilité de déterminer le régime de réutilisation applicable. Les opérateurs culturels peuvent ainsi conserver une certaine latitude pour écarter ou limiter la réutilisation de certaines données sensibles (fonds d’archives de guerre ou données nominatives) ou des données protégées par un droit de propriété littéraire et artistique ou industrielle.
Le document publié par la CNIL porte à mon sens un coup sévère à la première justification avancée : la nécessité de protéger les données personnelles. La CNIL énonce bien tout un ensemble de règles destinées à protéger les données sensibles figurant dans les informations publiques des institutions culturelles, mais à aucun moment elle ne vise la fameuse exception culturelle de l’article 11. Les restrictions qu’elle apporte au principe général de réutilisation des données découlent manifestement des exigences de la loi Informatique et Libertés, citée à plusieurs reprises, qu’elle combine ici avec la loi CADA.
Cela signifie que le raisonnement avancé sur C/Blog est juridiquement incorrect : l’exception culturelle n’est pas justifiée par la nécessité de protéger les données personnelles. À vrai dire, cela n’a rien de surprenant. Toutes les institutions publiques sont susceptibles d’être confrontées au problème des données personnelles et celles qui concernent les institutions culturelles ne sont pas particulièrement plus sensibles que les autres. Dira-t-on par exemple que les données personnelles d’un service d’archives sont plus sensibles que celles d’un hôpital ou du ministère de la Justice ? Cela n’a aucun sens.
C’est pourquoi d’ailleurs la loi de 1978 avait déjà prévu des dispositions protectrices en lien avec les données personnelles applicables à toutes les administrations, à son article 13, sans aucun rapport logique dans le texte avec l’exception culturelle de l’article 11. CQFD.
La CNIL ayant à mon sens passablement affaibli (atomisé ?) l’argument lié aux données personnelles, passons à celui des données protégées par un droit de propriété littéraire et artistique ou industrielle. On peut penser que de ce point de vue, la spécificité des établissements culturels est plus forte, car leurs collections (notamment en bibliothèques et en musées, mais les archives sont aussi concernées) contiennent un grand nombre d’œuvres susceptibles d’être protégées par des droits d’auteur (tableaux, photographies, sculptures, livres, manuscrits, estampes, affiches, etc).
Néanmoins , l’exception culturelle ne peut pas non plus être justifiée par ce raisonnement, car la loi de 1978, tout comme pour les données personnelles, a explicitement prévu ce cas, encore une fois dans un article séparé (le dixième), sans lien avec l’article 11 :
Ne sont pas considérées comme des informations publiques, pour l’application du présent chapitre, les informations contenues dans des documents : [...]
- sur lesquels des tiers détiennent des droits de propriété intellectuelle.
Assez logiquement, la loi prévoit que le principe de réutilisation des données ne s’applique pas lorsque celles-ci correspondent à un document protégé par des droits de propriété intellectuelle, car autoriser la réutilisation reviendrait à violer les prérogatives des titulaires de droit. Mais cela n’a rien à voir avec l’exception culturelle, puisque cette règle est générale et vaut pour toutes les administrations.
Et c’est parfaitement logique, car les institutions culturelles ne sont pas les seules à détenir des documents potentiellement couverts par des droits de propriété intellectuelle. Allez donc voir le Répertoire des Informations Publiques du Ministère de la Justice (RIPMJ) par exemple. Il distingue selon que les informations sont des données publiques ou relèvent d’un droit de propriété intellectuelle et l’indique par une signalétique différente. Et pour ce faire, il n’a nullement besoin d’une exception culturelle ! CQFD bis.
Conclusion : l’exception culturelle est… inutile ! Et j’irais même plus loin : telle que formulée par la loi de 1978, il est quasiment impossible de lui donner une signification juridique réelle (une journée d’étude toute entière a récemment été consacrée à cette question, sans déboucher sur un résultat tangible, personne n’étant capable d’indiquer ce que pouvez bien signifier cette exception).
Au-delà de l’aspect purement juridique, ce défaut de conception de la loi de 1978 pourrait avoir des conséquences graves, car un certain nombre de service d’archives ont cru pouvoir s’abriter derrière l’exception culturelle pour refuser à une célèbre firme de généalogie de réutiliser leurs données (y compris à titre payant). Celle-ci a réagi en provoquant une série d’avis de la CNIL et de la CADA, puis en intentant des procès devant les juridictions administratives. Nous devrions d’ailleurs bientôt connaître la première décision d’un TA, à propos du cas des Archives du Cantal. La CNIL n’est certes pas une juridiction et ses positions ne s’imposent pas ipso facto aux juges, mais je doute sérieusement que les décisions à venir puissent s’écarter beaucoup du document publié aujourd’hui et donner un contenu réel à cette exception culturelle, car je ne vois pas comment c’est logiquement possible à partir de la loi.
Loin de moi l’idée de minimiser l’enjeu de ces procès et notamment celui de la protection des données personnelles contenues dans les documents d’archives (sur la question, voyez ce bon dossier). Mais je pense que c’est une très mauvaise chose que d’avoir cherché le bénéfice de cette exception culturelle : insaisissable, difficile à interpréter et au final, dangereuse.
De plus, je pense – et en cela je rejoins la Fing – que cette incertitude juridique – ce droit « gazeux » comme l’a très bien nommé Michèle Battisti – freine considérablement la participation des institutions culturelles au mouvement en faveur de l’opendata qui commence à se dessiner en France. J’en veux pour preuve le compte rendu de la première réunion d’Etalab, la mission chargée en France de créer un portail – data.gouv.fr – pour favoriser la réutilisation des données. Regardez bien la liste des participants : pas un acteur en provenance de la sphère culture (à part France Télévisions), alors qu’un grand nombre de ministères sont représentés !
Pourtant, à l’étranger, des établissements œuvrent en faveur de la réutilisation la plus large des données culturelles. L’Université de Yale aux États-Unis vient d’annoncer qu’elle plaçait 250 000 images numérisées issues de ses collections dans le domaine public et qu’elle les libérait de tout droit de réutilisation. La Bibliothèque du Congrès vient de son côté de lancer un remarquable National Jukebox [en], qui facilite la réutilisation et le partage de ses enregistrements sonores numérisés. En novembre dernier, la British Library annonçait qu’elle libérait 3 millions de notices bibliographiques, en les plaçant sous la licence CC0. En Australie, archives, bibliothèques et musées participent à part entière au portail data.gov.au (un concours de mashup – LibraryHack [en] – vient même d’être lancé à partir de données bibliographiques et de contenus).
Les atermoiements autour de l’exception culturelle constituent finalement un faux débat. La Commission européenne envisage d’ailleurs une refonte de la directive relative aux informations publiques et dans le questionnaire qu’elle proposait à cet effet fin 2010, elle posait ouvertement la question de l’intérêt du maintien de cette exception.
À ce faux débat, j’aimerais en opposer un vrai.
La loi de 1978 prévoit explicitement qu’elle ne s’applique pas aux informations contenues dans des documents sur lesquels des tiers possèdent des droits de propriété intellectuelle (des oeuvres donc). Mais qu’en est-il pour les documents pour lesquels les droits patrimoniaux sont éteints, suite à leur entrée dans le domaine public ? Il s’agit pourtant d’une part très importante des collections des bibliothèques, archives et musées, et celles qui font prioritairement l’objet de campagnes de numérisation.
Dans cette hypothèse, il paraîtrait logique que symétriquement à ce qui se passe pour les œuvres protégées, la loi de 1978 s’efface pour que l’on en reste à l’application stricte du Code de Propriété Intellectuelle. Les oeuvres sont dans le domaine public et il n’y a aucune raison pour que leur statut juridique change lorsqu’elles sont transformées en données.
Le domaine public est chose essentielle, car il est la condition de possibilité de plusieurs libertés publiques (droit à la culture, à l’information, à l’éducation).
C’est dans ce lien étroit entre données culturelles, domaine public et libertés fondamentales que ces données sont exceptionnelles à mes yeux et pour nulle autre raison.
—
Billet initialement publié sur :: S.I.Lex :: sous le titre “De l’inutilité de l’exception culturelle en matière de réutilisation des données publiques”
Crédit images CC Flickr laverrue, Enso2. par Muesse Wikimedia Commons et pixshure
]]>A l’origine, c’est l’histoire d’un jeu de données, l’un parmi la centaine qui ont été mis à disposition des développeurs. Ce jeu de données s’appelle “emplacement des trottoirs surbaissés”. C’est un fichier de 80 000 points qui recense tous les trottoirs surbaissés de Rennes et leur emplacement.
Un trottoir surbaissé cela peut correspondre à une sortie de véhicule (“un bateau” comme on le nomme dans le langage courant), mais aussi à un passage piéton aménagé pour les personnes en fauteuil roulant. Ces données sont utilisées par les services techniques de la ville, pour les travaux de voirie notamment.
L’emplacement des passages piétons ne figure pas dans les jeux de données ouvertes. Deux développeurs indépendants ont toutefois pu déterminer l’emplacement de 4000 passages piétons, à l’aide des photographies aériennes (orthophotos) qui, elles, faisaient aussi partie des données libérées.
En combinant la donnée “brute”, un vrai travail d’enrichissement et en mixant ces données avec des points d’intérêt spécifique (arrêt de bus accessibles, surfaces podotactiles), ces développeurs ont pu proposer un service de calcul d’itinéraires pour les personnes à mobilité réduite. Leur service, handimap.org est accessible en ligne et sur mobile et figure parmi les lauréats du concours.
Cet exemple illustre – sous un angle différent de celui de See.Click.Fix – tout l’intérêt de la démarche d’ouverture des données: les usagers disposent d’un service qui n’existait pas – et qui n’aurait sans doute jamais vu le jour sans ce concours-, la collectivité voit sa donnée utilisée et enrichie par des tiers et les développeurs ont pu tester et mettre en œuvre une approche originale et prometteuse.
Une grande majorité des applications se sont concentrées sur la thématique du transport et de la mobilité urbaine; les données “vélo” ont été les premières ouvertes (bien avant le lancement du concours), les jeux de données comprennent un grand nombre de modes de déplacement (vélo, bus, métro, parcs-relais de stationnement, …), l’orientation “apps mobiles” du concours a par ailleurs dû contribuer à orienter les développeurs vers cette thématique.
Beaucoup d’applications sur la mobilité dans la ville – dont plusieurs lauréates du concours : Go2Rennes, Transports Rennes, EoCity, … – mais avec souvent des approches différentes: l’un aura privilégié la diversité des modes, l’autre fournira un calcul précis du Co2 économisé en utilisant le vélo (Vélo Rennes). Un dernier enfin (ParkingGuru) vise à faciliter le stationnement dans le centre-ville.
On peut aussi repérer des services à vocation touristique (promenades en réalité augmentée), récréative ou même sportive. Partager des itinéraires favoris, découvrir des lieux de sortie un samedi et les parcours d’entraînement pour les adeptes de la course à pied le dimanche …
Lors d’une récente intervention à la Cantine numérique rennaise, Valérie Peugeot soulignait les deux grandes catégories d’arguments utilisés pro-open-data; une approche économique (facteur d’innovation, création de services, amélioration de la vie quotidienne, contribution à l croissance, création d’emploi, …) et une approche politique (faire émerger de nouvelles connaissances, et enrichir les biens communs de la connaissance, gagner en efficacité pour les administrations, la citoyenneté par la transparence et l’accountability, participer de la qualité démocratique, …).
Je m’interrogeais dans un article précédent sur l’orientation politique de l’open data. A première vue, on peut se dire que cet open data là, celui qui a été révélé par le concours, n’est ni de droite ni de gauche, il est utilitariste.
Ce foisonnement de services utiles pour les habitants de la ville et ceux de passage est de nature à rassurer les élus et les collectivités qui s’engagent avec plus ou moins de prévenance dans une démarche territoriale d’ouverture des données. Le bénéfice “usagers” est clair : en ouvrant les données on favorise l’émergence de services (utiles) qui n’existaient pas.
N’est-il pour autant jamais question de politique dans les services présentés ? Un contre-exemple est celui proposé par Urbanility.
Le site propose une autre approche de la ville: en tapant une adresse dans le moteur de recherche, vous trouverez une vision succincte des “points forts” et “points faibles” du quartier. La logique utilisée est celle de la proximité – existe-il un espace de jeux pour les enfants dans un rayon de 250 mètres autour de votre domicile ? Pour les commerces (donnée qui ne figure pas dans le jeu de données), le développeur a utilisé les annuaires de Yahoo Local France.
Le plus intéressant dans cette approche, et ce qui est aussi le plus politique, c’est le retraitement qui a été utilisé pour classer les points forts et les points faibles. Le service recalcule la distance moyenne de chaque point de la ville à un commerce particulier, par exemple une boulangerie. Si vous habitez à 85 mètres d’une boulangerie mais qu’en moyenne pour les adresses de Rennes possédant une boulangerie proche de chez eux cette distance est inférieure, Urbanility considérera que votre adresse est moins bien “fournie”.
Pourquoi est-ce politique ? Parce qu’en choisissant ces critères de classement, le développeur opère une mise en avant de la réalité de la ville, il utilise des données objectives et leur apporte sa propre subjectivité – il reconnaît d’ailleurs le côté “work in progress” de sa démarche. Une telle mise en lumière aurait d’ailleurs tout aussi pu s’opérer sur les données transport; aucun développeur par exemple ne s’est intéressé aux statistiques de fréquentation des stations de vélo en libre-service.
Peut-être que les jeux de données libérés n’orientaient pas vers un usage plus politique. La ville de Rennes et Rennes Métropole viennent d’annoncer la poursuite de leur programme open data avec les données budgétaires – nous pourrons voir prochainement le type de services et d’applications qui les utilisent.
Deux tiers des participants sont des particuliers. Ils sont lycéen, étudiant ou ingénieurs. Ils ont en commun de bien maîtriser l’outil informatique, par métier ou par passion. La plupart sont des salariés des grands groupes d’informatique ou de télécommunications, mais qui ont poursuivi un projet personnel – il est amusant de noter que peu d’entre eux développent des services mobiles dans le cadre de leur emploi. Ils ont plutôt des spécialisations autour des grands systèmes d’information ou des systèmes de facturation (billing & ticketing).
Les entreprises participantes vont de la start-up locale à la société de services en informatique. D’autres viennent de Paris, de Lyon … ou de Strasbourg – on voit bien une illustration du “first-mover advantage” pour l’organisateur du concours.
D’un point de vue technique, un tiers environ des services sont accessibles sur le web, un deuxième tiers pour les téléphones Android et un dernier tiers pour toutes les autres plate-formes dont l’iPhone. Une part importante d’Android à mettre en relation avec la forte participation des particuliers à cette compétition.
Il y a un intérêt dans la démarche, au-delà du résultat lui-même.
Toutes les parties prenantes du processus – les services de la collectivité, les élus, le délégataire de service public de transport, … – auront pu faire l’expérience concrète de l’innovation ouverte.
Les échanges furent nourris sur les forums de développeurs, avec souvent de l’entraide et du partage de connaissances. Les ateliers physiques ont permis de faciliter les rencontres entre les développeurs et ceux qui ont accepté de libérer leurs données.
Une rencontre qui aura aussi permis de confirmer l’une des bases de l’open innovation à savoir qu’il y a des gens hors de l’organisation (collectivité ou entreprise) qui sont capables d’apporter des bonnes idées et des propositions de réalisation. C’est peut-être aussi l’un des premiers bénéfices de cette expérience open data qui se poursuit aujourd’hui. Moins flashy que See.Click.Fix mais tout aussi intéressant…
Le concours n’était que la première étape d’une démarche qui est maintenant lancée, démarche qui a suscité des attentes aussi bien de la part des développeurs que des détenteurs de données. A suivre !
>> Montage Photo utilisant FlickR suzannelong et Christophe Porteneuve
]]>Au menu, très complet, digeste et instructif : une enquête et une trentaine d’articles, que l’on retrouve sur son site ainsi que dans le n° spécial de leur magazine, suivi d’une conférence, intitulée L’Open data, et nous, et nous, et nous ?, occasion de revenir sur ce pour quoi l’open data a de l’avenir, et ce à quoi il pourrait notamment servir.
Ce mouvement de libération des données, initié en 2006 par Michael Cross, journaliste au Guardian, quotidien britannique pionnier du datajournalisme, a depuis été repris à leur compte par de nombreux pays, régions et municipalités, comme le constate Nigel Shadbolt, co-fondateur de data.gov.uk, le portail opendata du gouvernement britannique :
L’open data s’est démocratisé : ce n’est plus une chimère, c’est un objectif que l’on peut clairement et raisonnablement atteindre. Les progrès réalisés sont significatifs. Nous avons publié des milliers d’ensembles de données qui comptent réellement pour les citoyens : des dépenses publiques à la structure ou au fonctionnement du gouvernement, aux taux d’infection dans les hôpitaux ou des données relatives à l’éducation par exemple.
Pourtant, déplore Michael Cross, “la communauté est très réduite et la discussion est monopolisée par un petit nombre de personnes. Il y a un réel besoin pour des exemples de données qui changent vraiment la vie des gens“.
Pire : deux ans après son lancement, le bilan de data.gov, le portail américain, serait mitigé, et la proposition de budget alloué à l’Electronic Government Fund serait de passer 34 à 2 millions de dollars seulement, soit une coupe de plus de 90%, menaçant l’existence même de data.gov, et autres initiatives « d’open gouvernement »… alors même que de telles initiatives ont depuis été reprises dans 15 pays, 29 états et 11 villes aux États-Unis, et une dizaine de projets français.
Dans la passionnante interview qu’il a accordé à RSLN, Bernard Stiegler, philosophe et directeur de l’Institut de Recherche et d’Innovation (IRI, Centre Pompidou), explique que le développement de l’open data est “l’aboutissement d’une rupture majeure déjà largement entamée, et qui n’a rien à voir avec les précédentes :
« Toutes les technologies monopolisées par l’industrie de la culture, au sens large du terme, pendant un siècle, sont en train de passer entre les mains des citoyens.
C’est un événement d’une ampleur comparable à l’apparition de l’alphabet qui, comme technique de publication, c’est à dire de rendu public, est au fondement de la ers publica, tout comme à ce qui s’est déroulé après Gutenberg et la Réforme, généralisant l’accès à l’écriture imprimée et au savoir. »
Si “quantité de pouvoirs détiennent des données qu’ils ne veulent pas abandonner parce que leur pouvoir même repose sur cette rétention de l’information, Bernard Stiegler n’en rappelle pas moins que “la démocratie est toujours liée à un processus de publication – c’est à dire de rendu public – qui rend possible un espace public: alphabet, imprimerie, audiovisuel, numérique” :
C’est à une refondation totale de la chose publique qu’il va falloir procéder – et ici, il ne faut pas laisser ce devenir se produire à la seule initiative du monde économique, c’est à dire des seuls intérêts privés, dont la crise économique nous montre qu’ils ne coïncident jamais avec le bien public.
Nigel Shadbolt, rappelle de son côté deux exemples illustrant l’importance de l’open data.
L’un des tous premiers exemples de l’importance de la collecte, et du partage, des données publiques, eut lieu en 1854, lorsqu’une carte de la propagation d’une épidémie de choléra permit de visualiser le fait que les morts se trouvaient essentiellement à proximité de puits et de sources d’eau : “C’était la première fois qu’a été réellement compris le lien entre l’eau et la diffusion du choléra !“.
Plus récemment, et suite à la mort dans un accident de vélo de l’un de ses amis, un membre du cabinet du premier ministre britannique demanda s’il existait des données concernant ce genre d’accidents. Le ministre des transports avait les données, et les publia dans un tableur.
« Une fois les données publiées, une application était en ligne dans les 2 jours. Est-ce qu’un gouvernement aurait été capable de construire une application en deux jours ? Non. Il lui aurait fallu deux ans, et encore … »
Bruno Walther, de CaptainDash“, lance quant à lui un pari : “la révolution de l’opendata va être comparable à celle des réseaux sociaux”
« Faisons un petit flash back : qui aurait cru, en 2001, qu’un truc qui s’appelle le réseau social, qui voient des gens s’interconnecter, et qu’une start-up qui n’existait pas encore, Facebook, allait changer le monde ?
Que ce truc allait changer les règles de mobilisation, avoir des conséquences sur un certain nombre de régimes autoritaires, et avoir des conséquences tellement fortes que des gens prendraient des données pour les mettre en ligne, et déboucher sur (la publication) des câbles américains ? »
De mon côté, je me suis pris à imaginer ce que donnerait un budget en mode open data, voire “en français facile“… et les questions que l’on pourrait dès lors se poser :
Quel est le prix moyen du repas élyséen ?
A qui profitent le placement des chômeurs, et les OPérations EXtérieures de l’armée française ?
Combien (nous) coûtent les sondages, la vidéosurveillance ?
Combien touchent Bouygues, EDF, Microsoft, Veolia de l’État et des collectivités ?
En mode ironique, je concluais ma présentation en expliquant qu’à terme, OWNI pourrait bien racheter le Canard Enchaîné, si tant est que le cercle vertueux de l’open data (et donc de la transparence), du journalisme de données (et donc d’investigation), de cette démocratisation des savoirs (et donc du quatrième pouvoir), prenait vraiment le pas sur ceux qui, encore aujourd’hui, refusent de nous rendre ce qui nous appartient, au motif que cela pourrait leur faire perdre un petit peu de pouvoir.
En attendant, le mouvement est lancé, de plus en plus de données sont libérées, de plus en plus nombreux sont aussi ceux à les réutiliser, partager, remixer. Faites tourner.
Voir aussi le datablog d’OWNI, ainsi que le Rapport de veille sur l’ouverture des données publiques de liberTIC, association qui “a pour objectif de promouvoir l’ouverture des données publiques, l’e-démocratie, le gouvernement 2.0 et d’accompagner notre territoire dans le développement et l’utilisation d’applications numériques d’utilité publique” et a qui nous avons emprunté l’image de tête en CC.
]]>