La science ouverte

Guide pratique pour Géographie-cités

Auteur·rice
Affiliations

Christine Kosmopoulos

CNRS

UMR8504 Géographie-cités

Date de publication

25 novembre 2024

La science ouverte à l’UMR

En matière de science ouverte, l’UMR a joué un rôle pionnier avec la création dès 1996 de Cybergeo, une des rares revues nativement numériques en SHS qui ait tenu sur la durée et en accès ouvert. Puis viendra en 2004 le lancement de la première collection d’archives ouvertes HAL en SHS Géographie-cités. Plus récemment l’UMR s’est dotée de plusieurs collections de données ouvertes et de codes sources.

Petit rappel

A l’origine de la science ouverte, l’accès ouvert est un engagement humaniste et militant au service de la recherche scientifique et pour le partage du savoir sans profit.

Introduite officiellement par la Commission européenne dès 2014, la notion de «science ouverte » (SO) recouvre celle d’accès ouvert, des données ouvertes de la recherche, d’intégrité scientifique et de science citoyenne (27 mai 2016, Conclusions du Conseil d’UE)1.
En 2016, la France adopte La loi pour une république numérique (3 mai 2016 n°2016-1321) qui autorise le dépôt des publications dans les archives ouvertes (HAL par exemple) avec une clause spécifique pour les SHS repoussant l’embargo des dépôts des textes intégraux à 12 mois selon l’éditeur.

En 2018 est lancé Le 1er Plan national de la science ouverte (PNSO) qui rend obligatoire l’accès ouvert pour les publications et pour les données issues de recherches financées sur des fonds publics.

Avec la science ouverte et la déclaration de San Francisco sur l’évaluation de la recherche (DORA2), signée par le CNRS en 2018, l’évaluation est également appelée à évoluer profondément. Il s’agit de soutenir la bibliodiversité et la “voie verte” des archives ouvertes mais aussi de dépasser le facteur d’impact en élargissant l’évaluation à la variété des productions (données, logiciels, publications, , outils, applications, manuscrit en cours d’évaluation, preprints etc.) HAL devient le recueil ouvert de la production scientifique comme définit dans la Feuille de route du CNRS pour la Science Ouverte (2019).

Outre la collection HAL, l’UMR crée en 2020 des collections dédiées dans plusieurs entrepôtsdans lesquelles les chercheurs s’engagent à déposer et, dans la mesure du possible, à partager leurs données et codes afin d’en permettre la réutilisation.
Cybergeo a également développé des collections dans Nakala, Zenodo et plus particulièrement dans Harvard Dataverse pour les données associées aux data papers et model papers.
Avec la création en 2020 par le CNRS de la Direction des Données Ouvertes de la Recherche (DDOR), les publications se trouvent désormais intégrées dans les «données de la recherche ». «Issue de la fusion de l’actuelle Direction information scientifique et technique (Dist) et de la mission Calcul Données (MiCaDo), la DDOR couvre l’ensemble du continuum depuis le calcul jusqu’à l’information scientifique et technique. C’est parce que la donnée englobe l’ensemble des problématiques qui seront traitées par cette direction que nous avons choisi de l’appeler Direction des données, ouvertes pour rappeler notre attachement à la science ouverte. Un choix avant-gardiste : nous considérons que les publications elles-mêmes sont des données de la recherche »3

Présentation de ce guide

En 2021, un second Plan National de la Science Ouverte (2021-2024) (PNSO2)4 est lancé par le MESRI, qui se décline en 4 axes :

  1. Généraliser l’accès ouvert aux publications (archives ouvertes et publications en accès ouvert)
  2. Structurer et ouvrir les données de la recherche
  3. Ouvrir et promouvoir les codes sources produits par la recherche
  4. Transformer les pratiques pour faire de la science ouverte le principe par défaut

Le présent guide reprend ces 4 axes, décrit les plates formes et services proposés par l’UMR en matière de SO. Il aborde tous les aspects du traitement des données et des publications, les entrepôts, le cycle de vie des données, le plan de gestion des données, les licences, les questions juridiques, les droits d’auteurs, les services d’accompagnement, les bonnes pratiques à adopter et les ressources en ligne.

La science ouverte étant désormais considérée comme un principe essentiel de la pratique scientifique, UPCité, Paris 1, EHESS, le Campus Condorcet, l’INIST disposent de pôles Science Ouverte et offrent de nombreuses formations en ligne ou en présentiel sur les questions abordées dans ce guide.

Publier en accès ouvert

L’expression «open access » recouvrent des modèles économiques très différents : le “green open access” (auto-archivage par l’auteur de ses travaux, collections HAL), le “gold open access” ou modèle auteur/payeur, qui inclut aussi bien les articles dans des revues à comité de lecture en accès ouvert pour les lecteurs, payé par les auteurs avec des APC (Article processing charges) pour financer la publication que des revues hybrides (APC + abonnement).

Certains éditeurs proposent des adhésions institutionnelles pour pouvoir bénéficier de remises sur le coûts des APC, d’autres des adhésions individuelles à vie permettant de publier un ou plusieurs articles par an, qui se substituent alors aux APC.
Ce modèle étant parfois dévoyé, il convient d’être vigilant sur :
• les dérives tarifaires pratiquées par certains éditeurs qui, outre financer la publication, cherchent surtout à faire du profit.
• l’existence d’ «éditeurs prédateurs » qui, sous couvert d’open access, font payer les auteurs mais n’offrent aucune expertise (absence de comité scientifique, processus de relecture défaillant voire inexistant…).
• la notion de revues hybrides : des revues dont l’accès est soumis à un abonnement mais dans lesquelles l’auteur peut choisir de publier un article en libre accès en s’acquittant de frais. Il s’agit généralement de revues éditées par de grands éditeurs commerciaux. Ce modèle est rejeté par le plan S5.

Un nouvel intitulé dans les modèles dits en accès ouvert a été introduit pour distinguer les revues authentiquement en accès ouvert, il s’agit du modèle de la voie “diamant” ou “platine” en opposition précisément à la voie “dorée”. Ce modèle les revues Freemium (Cybergeo), sans coût pour les auteurs ou encore les revues intégralement en accès ouvert (épirevues).

Publier dans des revues en accès ouvert

  • Le DOAJ permet de trouver toutes les revues qui diffusent en accès ouvert. Attention certaines revues peuvent être soumises à des APC6, elles sont à éviter. Privilégiez plutôt les publications sans coût pour l’auteur et pour le lecteur.

https://doaj.org/

Eviter les éditeurs prédateurs

Les revenus générés par l’accès ouvert avec les APC ont amené à la création de nombreux éditeurs sans scrupules7 qui se font passer pour des éditeurs scientifiques et pour lesquels vous recevez très souvent des demandes par mail de soumission d’articles ou de participation à des comités d’experts. En réalité, aucun travail d’expertise n’est fait et les articles sont publiés sans relecture. Pour vous prémunir, voici trois outils pour identifier et éviter de publier chez des éditeurs “prédateurs” :

https://predatoryjournals.org/s https://thinkchecksubmit.org/

Le mieux est de croiser les informations pour mieux identifier la revue (thinkchecksubmit + JournalBase) et de vérifier la politique de la revue en matière d’accès ouvert (DOAJ)

JournalBase est une plate-forme bilingue d’interrogation des revues en sciences humaines et sociales (SHS) produite par Géographie-cités et CNRS SHS qui garantit l’accès aux revues non prédatrices (près de 1000 revues nationales et internationales en géographie et 20 000 en SHS).

Déposer dans l’archive ouverte HALSHS

HALSHS est depuis 2017 le recueil ouvert de la production scientifique de l’UMR. La collection démarrée en 2003 regroupe près de 5000 documents et notices bibliographiques. 55% de la collection est disponible en accès ouvert
https://hal.archives-ouvertes.fr/GEOGRAPHIE-CITE

HAL Formation (https://learning.hal.science/), est un espace gratuit et ouvert contenant les ressources pédagogiques que produit par le CCSD pour accompagner l’utilisation de la plateforme HAL, et l’accès pour s’inscrire à nos formations.

Le dépôt sur HAL se fait tout au long de l’année. Cette saisie unique vous permettra une diffusion maximale. Depuis 2023, il est demandé de déposer les textes intégraux de vos articles dans des revues scientifiques en tenant compte de l’accord avec l’éditeur (voir Sherpa/Romeo).

Saisir dans HAL permet de ne saisir qu’une seule. Toutes les métadonnées sont interopérables et partager avec d’autres sites.

Quels sont mes droits ?

Sherpa/Romeo permet de trouver un résumé des autorisations accordées dans le cadre de l’accord de transfert de droits d’auteur de chaque éditeur et des dépôts des textes intégraux.

Générer votre CV à partir de HAL

Idhal est un identifiant proposé par HAL qui vous permet de créer des pages CV personnalisables avec vos dépôts et vous assurera une large diffusion sur le web. Il est également demandé pour tout reversement HAL/RIBAC. Créer votre idhal vous permettra de faciliter vos dépôts et de rapatrier automatiquement vos références dans RIBAC.
Pour en savoir plus : Comment créer votre idhal

Structurer, valoriser et ouvrir vos données

Le Plan Données de la recherche (CNRS, novembre 2020) s’inscrit dans la nécessité d’accélérer le développement vers la Science Ouverte. Ce plan et les actions qu’il propose traitent des données ayant vocation à être, selon l’expression de la communauté européenne, « ouvertes autant que possible, fermées autant que nécessaire ».

Définition

On entend par «données de la recherche » :

“Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche.” (Source : OCDE - Principes et lignes directrices pour l’accès aux données de la recherche financée sur fonds publics, 2007).

“Les données brutes ou retraitées dans tous leurs formats, les textes et documents, les logiciels, algorithmes, protocoles, etc.” (Source : CNRS : un plan ambitieux pour des données accessibles et réutilisables, A. Schuhl, 2021)

Pourquoi ouvrir les données ?

Les principaux objectifs sont :

  • Rendre la recherche plus efficace et non redondante
  • Assurer l’intégrité scientifique (reproductibilité et validation des résultats)
  • Etre en capacité de réutiliser les données même sans en être à l’origine
  • Croiser les données pour favoriser de nouvelles analyses, voire faire émerger de nouvelles thématiques
  • Mutualiser et rationaliser les infrastructures informatiques et les moyens RH

Déposer vos données dans les collections de données de l’UMR

L’ouverture de vos données implique le dépôt dans un entrepôt pérenne de préférence institutionnel qui garantit le respect des principes de la science ouverte.

Selon la nature de vos données vous appliquerez vos droits de diffusion et de partage en sélectionnant la licence appropriée parmi celles qui vous sont proposées sur ces plateformes. Vous trouverez ci-dessous des liens détaillant les principales licences qui vous seront proposées.

L’UMR Géographie-cités vous propose plusieurs entrepôts pour déposer tous types de données.

Zenodo : Communauté Géographie-cités

Zenodo est une plate-forme européenne de dépôt et de partage de vos travaux de recherche, de logiciels, codes sources et de données. On peut y déposer ou télécharger des fichiers jusqu’à 50 GO. Le code source déposé sur Github est citable dans Zenodo.

Voici une courte vidéo d’aide au dépôt dans Zenodo : https://doranum.fr/depot-entrepots/depot-donnees-recherche-zenodo/

ATTENTION : lorsque vous déposez sur Zenodo, n’oubliez pas d’associer “Géographie-cités” dans le champ “Communauté”

Nakala : Collection Géographie-cités

https://geographie-cites.nakala.fr/

L’entrepôt Nakala permet de partager, publier et de valoriser les données scientifiques selon les principes FAIR. Il s’agit d’un entrepôt national géré par la Très Grande Infrastructure de Recherche Huma-Num du CNRS.

Vous trouverez toute la documentation sur Nakala sur: https://documentation.huma-num.fr/nakala/

ATTENTION : lorsque vous déposez sur Nakala, n’oubliez pas d’associer “Géographie-cités” dans le champ “Collection”.

Les formations au dépôt sur Nakala sont assurées par Ludovic Chalonge

Zenodo et Nakala fournissent un identifiant numérique d’objet (DOI) aux données déposées qui n’en disposent pas, afin de pouvoir les citer facilement. Le support des données et des licences est varié, vous les sélectionnez sur la plate-forme.

Voici un autre outil pratique qui vous indique dans quelles conditions vous pouvez partager votre document, si celui-ci a un identifiant DOI : How Can I share it

Les entrepôts de données et codes sources de Cybergeo

https://dataverse.harvard.edu/dataverse/cybergeo

https://cybergeo.nakala.fr/

https://zenodo.org/communities/cybergeodata/records?q=&l=list&p=1&s=10&sort=newest

Les collections de Cybergeo regroupent les fichiers de données et codes sources des articles publiés dans les rubriques des Data Papers et des Model Papers.

Le plan de gestion de données (PGD)

L’intégrité scientifique

L’ANR, Horizon Europe et la plupart des agences de financement demandent la rédaction d’un Plan de gestion de données (PGD ou DMP). Pour garantir l’intégrité scientifique, le décret du 3 décembre 2021 demande à tous les chercheurs la rédaction d’un plan de gestion des données - cf. Article 6. Il est également très fortement conseillé dans l’accompagnement d’un travail de thèse. Il sera peut-être obligatoire prochainement.

Source : https://www.legifrance.gouv.fr/jorf/id/JORFTEXT000044411360

Le plan de gestion de données accompagnera tout le cycle de vie de vos données. C’est un document évolutif et de synthèse qui vise à vous aider dans la gestion des données de votre projet de recherche en décrivant toutes les étapes de la construction de vos données : leurs sources, leur collecte, les étapes de la curation, leur production, le stockage, les droits de réutilisation, droits d’auteur, la possibilité de réutilisation, leur ouverte etc. C’est ce qu’on appelle “le cycle de vie des données”.

Le cycle de vie de vos données

Comme indiqué sur l’illustration ci-dessous de l’Institut Pasteur, il est préférable de commencer un PGD dès la conception de votre projet et de votre thèse. C’est aussi à ce moment-là que vous devez faire le point sur les droits de diffusion associés à vos données.

La rédaction d’un PGD est collective et fait intervenir tous les acteurs du projet.

Il y a des services qui peuvent vous aider à la rédaction du DMP (voir dans Axe 4).

LE PGD ne vous oblige pas à rendre vos données ouvertes. Vous pouvez choisir dans l’entrepôt où vous voulez les déposez et si vous souhaitez les diffuser ou non (cf exemple image ci-dessous). Ce choix peut également évoluer tout comme vous pouvez fixer une durée d’embargo si nécessaire.

Où trouver les modèles de plan de gestion de données ?

DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels (tutoriels). Il met à disposition des PGD proposés par les financeurs et les organismes (dont l’ANR et Horizon Europe) et des modèles de PGD remplis par des collègues (exemple illustration ci-dessous), qui vous aideront à rédiger votre PGD. https://dmp.opidor.fr/

Les licences de diffusion des données

Laquelle choisir ?

Les licences précisent les droits de diffusion et de réutilisation des données.
Voici un guide très utile sur la question des licences : https://datapartage.inrae.fr/Partager-Publier/Choisir-une-licence

Et dernièrement publié par l’INIST le guide des licences ouvertes. Très pratique, après avoir consulté cette ressource, vous devriez être capable de :

  • Connaître les principales licences ;
  • Distinguer les licences pour de la documentation, des logiciels ou des bases de données ;
  • Choisir une licence compatible avec la licence de l’information que vous réutilisez.
Quelques exemples

Les licences Creative Commons sont une alternative internationale (hors codes sources des logiciels) recommandées par Ouvrir la science. Pour comprendre : https://creativecommons.org/licenses/?lang=fr-FR
CC0-1.0, CC-BY-4.0 etCC-BY-SA-4.0 sont des licences ouvertes utilisées pour toutes les productions depuis les bases données en passant par les articles jusqu’aux vidéos. Ces licences sont en général choisies et indiquées aux auteurs pour les publications d’articles et proposées au choix par les entrepôts de données (Nakala, Zenodo, Github etc.).

A noter que CC-BY-4.0 and CC-BY-SA-4.0 ne doivent pas être utilisées pour les logiciels et les codes sources.

Voici les principales sources concernant les licences proposées en accès ouvert :
Pour vous aider à choisir la licence la plus adaptée : https://choosealicense.com/

  • Sur les licences internationales communément utilisées :
    - Open Source Initiative : https://opensource.org/licenses
    - L’ODbL (Open DatabaseLicense version 1.0), pour contrôler les redistributions et les travaux dérivés, ou pour une diffusion internationale (~CC-BY-SA)
  • Sur la Politique publique de la donnée (France) : Etalab a conçu la «Licence Ouverte / Open License » internationale (hors codes sources des logiciels) (~CC-BY): https://www.etalab.gouv.fr/licence-ouverte-open-licence

Attention, les éditeurs commerciaux (Elsevier, Wiley etc) ont des licences particulières. Même lorsqu’ils publient des articles en accès ouvert, ils n’autorisent pas forcément le partage. Pour mieux comprendre la politique des grands éditeurs et les licences associées, voir le billet du CCSD : Accès gratuit ne veut pas dire libre accès

Dans la mesure du possible, les licences de diffusion doivent être le plus ouvertes possibles afin de permettre une réutilisation des données conformément aux principes FAIR.

Les principes FAIR, un impératif du partage de données

Le partage des données et des métadonnées doit impérativement être conforme aux principes FAIR et permettre une réutilisation par les hommes et les machines des données. Voici ci-dessous la liste détaillée des principes FAIR à respecter.

#FAIR** : Findable, Accessible, Interoperable, Reusable.

Trouvable : Les (méta)données doivent être facilement trouvables par les humains et les machines, ce qui signifie que

F1. Les (méta)données se voient attribuer un identifiant unique et permanent au niveau mondial (DOI).

F2. Les données sont décrites avec des métadonnées riches

F3. Les métadonnées incluent clairement et explicitement l’identifiant des données qu’elles décrivent.

F4. Les (méta)données sont enregistrées ou indexées dans une ressource consultable.

Accessible : L’accès aux données doit être facile (avec authentification, ou restriction des autorisations si nécessaire), ce qui signifie que

A1. (Les (méta)données sont récupérables par leur identifiant en utilisant un protocole de communication standardisé.

A1.1 Le protocole est ouvert, gratuit, et universellement implémentable

A1.2 Le protocole permet une procédure d’authentification et d’autorisation, si nécessaire.

A2. Les métadonnées sont accessibles, même lorsque les données ne sont plus disponibles.

Interopérable : L’interopérabilité consiste à permettre l’échange et la réutilisation des données entre chercheurs, institutions, organisations, pays, etc. (c’est-à-dire en respectant les normes de formats, en se conformant autant que possible aux applications logicielles (ouvertes) disponibles, et en facilitant notamment les recombinaisons avec différents ensembles de données de différentes origines).

I1. Les (méta)données utilisent un langage formel, accessible, partagé et largement applicable pour la représentation des connaissances.

I2. Les (méta)données utilisent des vocabulaires qui suivent les principes FAIR.

I3. Les (méta)données comprennent des références qualifiées à d’autres (méta)données.

Réutilisables : la réutilisation des données doit être possible. Pour ce faire, les données doivent être correctement décrites et documentées (afin d’être reproduites, combinées avec d’autres, etc.).

R1. Les méta(données) sont richement décrites avec une pluralité d’attributs précis et pertinents.

R1.1. Les (méta)données sont publiées avec une licence d’utilisation des données claire et accessible.

R1.2. Les (méta)données sont associées à une provenance détaillée.

R1.3. Les (méta)données répondent à des normes communautaires pertinentes pour le domaine.

Source : https://www.go-fair.org/fair-principles

Pour en savoir plus, voir sur Ouvrir la science : Les principes FAIR

La plupart des entrepôts, comme Nakala, Zenodo, Dataverse offrent automatiquement des services FAIR pour la description de vos données (métadonnées) et pour leur diffusion. Toutefois, il reste à prêter attention sur la réutilisation des données par d’autres, pour cela vous devez respecter certaines normes et utiliser des formats non propriétaires (txt, csv etc.) pour permettre cette réutilisation. Vous trouverez ci-dessous les bonnes pratiques sur les normes et standart pour rendre vos données FAIR

Normes et standard

Pour plus d’informations sur les normes, standard, noms des fichiers, choix des mots clés etc.:

Les identifiants

DOI est un identifiant identifiant numérique d’objet pérenne ou numéro d’accès attribué à chaque article publié dans une revue scientifique numérique et à chaque jeu de données dans le cas des data papers et des model papers. L’avantage est de conserver l’accès à la publication, même si l’url change, de garantir sa visibilité et sa citabilité. Il s’agit en général d’un DOI, même si d’autres identifiants peuvent aussi être utilisés (Handle, ARK). Le DOI a l’avantage de pouvoir lier les personnes (ORCID) et les organisations (ROR).

ORCID (Open Researcher and Contributor ID) est un code alphanumérique non propriétaire, qui permet d’identifier les chercheurs et auteurs de contributions académiques et scientifiques, et d’éviter les confusions entre les homonymes. Le site permet également de regrouper toutes vos productions, de partager automatiquement tous vos dépôts de HAL sur votre page personnalisable ORCID : https://orcid.org/orcid-search/search?searchQuery=umr%208504
Il est fortement recommandé de vous créer un ORCID. Il sera demandé dans la plupart de vos publications et dépôts.

Il existe de nombreux autres identifiants comme on peut le voir ci-dessous.

Les guides de bonnes pratiques

Les droits d’auteurs

Le guide Je publie quels sont mes droits ? liste les questions que doivent se poser les auteurs de publications scientifiques lorsqu’ils décident de publier leurs travaux, leurs données et leurs codes sources ou logiciels. Il donne des conseils et des options possibles à appliquer tout au long du processus de publication :

Guide pour la recherche RGPD, février 2021

Pour en savoir plus : A qui appartiennent les données de la recherche ?

Dans le cadre du Plan national pour la science ouverte et de sa politique science ouverte, l’Agence Nationale de la Recherche (ANR) a adopté la stratégie de non-cession des droits qui renforce la liberté académique des chercheurs. Grâce à ce dispositif, les auteurs peuvent diffuser gratuitement et légalement le manuscrit de leur publication, avant et après relecture par les pairs.
La stratégie de non-cession des droits est portée par la cOAlition S, consortium international d’agences de financement de la recherche, qui a pour objectif d’accélérer la transition vers un accès libre et immédiat aux résultats de la recherche scientifique.
Cette démarche est obligatoire pour tous les projets financés par l’ANR à partir des appels à projets de 2022.
Source et pour savoir comment procéder : https://scienceouverte.univ-rennes.fr/anr-strategie-de-non-cession-des-droits

Les questions juridiques

La décision d’ouverture ou de protection des données de la recherche doivent être prises avec les services compétents de votre établissement.

Pour le CNRS :

  • Les services partenariat et valorisation pour la propriété intellectuelle
  • La délégation à la protection des données pour les données à caractère personnel
  • La direction de la sûreté pour les questions relatives à la souveraineté
Quelques ressources en ligne

“A qui appartiennent les données ?” Lionel Maurel (juriste, bibliothécaire et DSA à l’InSHS) :
https://doranum.fr/aspects-juridiques-ethiques/webinaire-des-tutoamate/

Sur le RGPD de l’ouverture des données en SHS, le guide du CNRS : https://www.inshs.cnrs.fr/sites/institut_inshs/files/pdf/guide-rgpd_2.pdf

Sur les données à caractère personnel : https://www.ouvrirlascience.fr/les-sciences-humaines-et-sociales-et-la-protection-des-donnees-a-caractere-personnel-dans-le-contexte-de-la-science-ouverte-v2/

Cheklist de conformité

Voici un site de l’INIST qui vous permet de vérifier si vos données sont conformes :

https://doranum.fr/depot-entrepots/verifier-donnees-recherche/

Les data papers

Seules les revues en accès numérique sont susceptibles de proposer la publication de data papers. En SHS, elles sont encore très peu nombreuses. Comme tout article scientifique, le data paper est soumis à l’évaluation par les pairs, mais à la différence de l’article classique, il comporte deux types de fichiers en accès ouvert :

  • L’article qui décrit, documente les données, les conditions et les méthodes de leur collecte avec un lien vers ces données. Généralement, l’article s’insère dans un template précis fourni par la revue,
  • Les fichiers de données déposés dans un entrepôt de données (Nakala, Zenodo, Dataverse etc.) de préférence institutionnel et rendu accessible selon les principes FAIR.
  • Une fois l’article publié, un DOI est attribué distinctivement à l’article et aux données

Les models papers fonctionnent selon le même principe mais concernent plus spécifiquement le partage de codes sources.

L’intérêt de ce type de publication est de donner une visibilité aux données et codes sources, depermettre leur citation, de garantir une diffusion large et rapide validée par les pairs des travaux de la recherche et de renforcer la reproductibilité des résultats.

Cybergeo propose la publication de model papers depuis 2015 et de data papers depuis 2017.

Ouvrir et promouvoir vos codes sources

Les entrepôts de codes sources et logiciels de l’UMR

git est un logiciel libre de gestion de versions, qui facilite le développement de logiciels à plusieurs.

https://github.com/Geographie-cites

Les codes source des logiciels qui sont développés à Géographie-cités sont hébergés sur l’instance Gitlab Huma-Num ou sur github.com.

https://gitlab.huma-num.fr/geographie-cites

Personnes référentes : Mattia Bunel et Hugues Pecout


Voici une courte vidéo sur Youtube d’aide pour associer GitHub et Zenodo : How to make open-source code citable with GitHub and Zenodo?

Au-delà de 30 ans, pour un archivage pérenne de vos données, vous pouvez vous adresser au Centre Informatique National de l’Enseignement Supérieur. Attention ce service est payant : https://www.cines.fr/archivage/un-concept-des-problematiques/le-concept-darchivage-numerique-perenne/

Les licences de diffusion des codes sources et logiciels

Les licences précisent les droits de diffusion et de réutilisation des codes sources et des logiciels. Il existe des licences spécifiquement applicables aux codes sources des logiciels8 :
https://www.data.gouv.fr/fr/licences
Free Software : https://www.gnu.org/licenses/license-list.fr.html

Les model papers

Les model papers fonctionnent selon les mêmes principes que les data papers mais concernent plus spécifiquement la documentation et la mise en partage des codes sources.

Pour vous accompagner

Pour toute information et formation sur la science ouverte : christine.kosmopoulos@parisgeo.cnrs.fr

Dans la rédaction des PGD

Pour vous aider dans la rédaction de vos plans de gestion de données

Pour vos dépôts dans les collections

Pour vos dépôts de données sur Nakala pour Géographie-cités, Ludovic Chalonge vous propose des formations tout au long de l’année.

Pour vos dépôts de données sur Zenodo : https://doranum.fr/depot-entrepots/depot-donnees-recherche-zenodo/

Pour vos dépôts dans HAL, Webinaires : https://www.ccsd.cnrs.fr/formations/

Aide et formation en ligne
Doranum : site de formation à distance très complet pour les plans et la gestion des données. Vous y trouverez toutes les informations associées au cycle de vie de la donnée.

DMP OPIDoR vous accompagne à travers l’élaboration et la mise en pratique de plans de gestion de données et de logiciels (tutoriels). Il vous propose des PGD proposés par les financeurs et les organismes (dont l’ANR et Horizon Europe) et des modèles de PGD remplis par des collègues, qui vous aideront à rédiger votre PGD.

https://dmp.opidor.fr/

Cat OPIDoR, wiki des services dédiés aux données de la recherche.

https://cat.opidor.fr/index.php/Cat_OPIDoR,_wiki_des_services_d%C3%A9di%C3%A9s_aux_donn%C3%A9es_de_la_recherche

Spécial doctorants

Autres ressources

Trouver des jeux de données

DataCite Commons: https://commons.datacite.org/

Attention : DataCite Commons ne prend que les DOI-datacite, pas les “DOI-Crossref

Recherche Data Gouv : https://www.ouvrirlascience.fr/decouvrez-le-projet-recherche-data-gouv/

Data gouv : https://www.data.gouv.fr/fr/datasets/

Trouver des entrepôts

Re3data est un site de référencement de dépôts de données de recherche lancé en 2012. Il comprend des dépôts qui permettent le stockage permanent et l’accès à des ensembles de données pour les chercheurs, les organismes de financement, les éditeurs et les établissements d’enseignement.

Outils et ressources visuelles

387 outils et ressources visuelles, classés par catégorie, pour créer une carte mentale, animer une vidéo, chercher des images libres de droit, illustrer une présentation, comparer des logiciels, trouver un tuto, lire nos dernières actualités via le blog : https://outils-visuels.fr/

Annexes

Annexe 1 : Discussion sur la Science ouverte

Avantages d’une Science ouverte

  • Contrôlée par la communauté scientifique
  • Interopérabilité (serveurs, moteurs de recherche)
  • Collecte des métadonnées par « moissonnage »
  • Exploration et extraction de données (data mining)
  • Favorise l’intégrité, la transparence et la reproductibilité de la science
  • Réduction du coût de production et de diffusion
  • Libération de la diffusion scientifique
  • Ouverture de l’accès aux résultats de la recherche à toutes et tous
  • Augmentation de la visibilité des publications
  • Garantie du droit de propriété des données
  • Stimule l’innovation – outils en open source
  • Conserve une mémoire scientifique publique
  • Les revues engagées dans l’accès ouvert authentique type diamant bénéficient d’un soutien institutionnel

Dangers et défis

Beaucoup de questions restent cependant en suspens et suscitent des inquiétudes même auprès des plus convaincus de l’accès ouvert9, notamment sur les points suivants :

  • Contrôlée intégralement par la communauté scientifique ?
  • Coût du financement du passage à l’accès ouvert
  • Argent monopolisé par les APC (Article Processing Charges : frais demandé à l’auteur pour sa publication en accès ouvert) et les accords transformants au détriment du développement et d’évolution des sites d’archives ouvertes et des revues respectant l’accès ouvert authentique
  • Privatisation par les éditeurs commerciaux des entrepôts d’archives ouvertes et de données de la recherche (ex récent Bepress par RELX Group/Elsevier)
  • Les éditeurs prédateurs
  • Détournement de la loi sur le numérique (ex. accord Couperin/Elsevier)
  • Questions ouvertes sur les droits d’auteurs pour les productions comme les chapitres d’ouvrages, ouvrages, rapports, medias etc. très importantes en SHS
  • Confusion entre archives ouvertes institutionnelles (type HAL) et réseaux sociaux (type Academia,) appartenant à des entreprises privées

Attention : les réseaux sociaux ne relèvent pas de la science ouverte. Ce sont des entreprises privées qui se réservent le droit de faire du data mining, sur vos textes, vos données personnelles. Il n’existe aucune garantie de pérennité, ni de gratuité des services. Certains réseaux sociaux sont directement liés aux éditeurs commerciaux. N’y déposer pas vos textes intégraux, mais seulement vos métadonnées en mettant un lien vers le texte original déposé dans un entrepôt institutionnel ou publié dans une revue en ligne en accès ouvert.

Bibliographie

Arènes C., 2020, “Données de la recherche et plans de gestion des données : codes et logiciels”, https://zenodo.org/record/4457028

Badolato A.-M., 2024, “Science ouverte – Données de la recherche”, Ouvrir la Science. https://www.ouvrirlascience.fr/science-ouverte-donnees-de-la-recherche

Badolato A.-M., 2021b, “Deuxième Plan national pour la science ouverte”, Ouvrir la Science. https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte

Borgman C. L., 2020, Qu’est-ce que le travail scientifique des données ? : Big data, little data, no data (C. Matoussowsky, Trad.). Marseille, OpenEdition Press, 420 p. http://books.openedition.org/oep/14692

Bouchard A., Boudry C., 2024, Utilisation et usages des identifiants numériques chercheurs en France. Synthèse de l’enquête nationale 2023. Réseau des URFIST. https://hal.science/hal-04537803

Boussou C., Deboin M.-C., Dedieu L., Barale M., 2019, Libérez la science : un jeu FAIR-play. CIRAD. https://agritrop.cirad.fr/id/eprint/592411

Bracco L., Donati C.-S., Du Pasquier D., Heude C., Rousselot C., 2022, “Former aux données de la recherche par le jeu”, https://zenodo.org/record/6854387

Colavizza G., Hrynaszkiewicz I., Staden I., Whitaker K., McGillivray B., 2020, “The citation advantage of linking publications to research data” (J. M. Wicherts, Éd.), PLOS ONE, Vol.15, N°4, e0230416.

Decker L., Hensens H., Doucouré C., Aventurier P., 2022, “Guide de relecture d’un jeu de données avant publication (Qualité de l’entrepôt de données DataSuds)”, https://zenodo.org/record/5884671

Dedieu L., 2022, “Publier un Data Paper : enjeux de bonnes pratiques, d’intégrité scientifique et de science ouverte”, https://zenodo.org/record/6817004

Europe S. “Action Plan for Diamond Open Access”, Science Europe. https://www.scienceeurope.org/our-resources/action-plan-for-diamond-open-access/

Fabry C., 2023, “Le plan de gestion de données pas à pas”, Inist. https://www.inist.fr/nos-actualites/le-plan-de-gestion-de-donnees-pas-a-pas/

Féret, Romain, Bracco, Laetitia, Cheviron, Stéphanie, Lehoux, Elise, Arènes, Cécile, Li, Ling., 2020, “Améliorer son projet ANR grâce à la Science Ouverte”, https://zenodo.org/record/3741665

Fourneret P. “Nouvelle ressource DoRANum ! Définition(s) des données de la recherche – DoRANum”, https://doranum.fr/2022/03/18/nouvelle-ressource-doranum-definitions-des-donnees-de-la-recherche/

Ginouvès V. “Les questions juridiques et éthiques : un chapitre important dans la rédaction des plans de gestion de données”, Ethique et droit. https://ethiquedroit.hypotheses.org/3330

Gras I., 2018, “La diffusion numérique des données en SHS – Guide de bonnes pratiques éthiques et juridiques”, Ethique et droit. https://ethiquedroit.hypotheses.org/1937

Gray E., Larrousse N., 2021, “La mise en œuvre de mécanismes de citation de données” https://hal.archives-ouvertes.fr/hal-03435034

Groupe de travail « Atelier Données », Mission pour les Initiatives Transverses Interdisciplinaires., 2021, “Guide de bonnes pratiques sur la gestion des données de la recherche”, https://mi-gt-donnees.pages.math.unistra.fr/guide/00-introduction.html

Heude C. “Guides thématiques : Données de la recherche : Choisir sa voie”, https://sciencespo.libguides.com/donnees-de-la-recherche/home

Kosmopoulos C., 2022, “From Open Access Publishing to Open Science: An Overview of the Last Developments in Europe and in France”, Handbook of Research on the Global View of Open Access and Scholarly Communications, 1‑22. https://www.igi-global.com/chapter/from-open-access-publishing-to-open-science/www.igi-global.com/chapter/from-open-access-publishing-to-open-science/303630

Laetitia Bracco, Mathilde Barthe, Stéphanie Cheviron, Agnès Faller, Madeleine Hubert, Sylvie Steffann, et al., 2020, “Guide d’autoformation aux données de la recherche”, https://zenodo.org/record/3920869#.X1nnzNTgqpo

Lucchesi L., 2021, “Politique de la donnée, des algorithmes et des codes sources : 15 stratégies ministérielles et 500 actions pour accélérer – Etalab”, https://www.etalab.gouv.fr/politique-de-la-donnee-des-algorithmes-et-des-codes-sources-15-strategies-ministerielles-et-500-actions-pour-accelerer

Martinez-Ortiz C., Martinez Lavanchy P., Sesink L., Olivier B. G., Meakin J., de Jong M., et al., 2022, Practical guide to Software Management Plans. Zenodo. https://zenodo.org/record/7248877

Mattmecoli., 2018, “A Data Scientist’s Guide to Open Source Licensing”, Medium. https://towardsdatascience.com/a-data-scientists-guide-to-open-source-licensing-c70d5fe42079

Nationale A. “Rapport de l’office parlementaire d’évaluation des choix scientifiques et technologiques établi au nom de l’office, pour une science ouverte réaliste, équilibrée et respectueuse de la liberté académique (M. Pierre Henriet)”, Assemblée nationale. https://www.assemblee-nationale.fr/dyn/15/rapports/ots/l15b5154_rapport-information

Nationale A. “https://www.assemblee-nationale.fr/dyn/15/comptes-rendus/ots/l15ots2122138_compte-rendu”, Assemblée nationale. https://www.assemblee-nationale.fr/dyn/15/comptes-rendus/ots/l15ots2122138_compte-rendu

Paillassard P., 2019a, “Ouvrir ses données de la recherche mais comment ? – DoRANum”, https://doranum.fr/2019/03/28/ouvrir-ses-donnees-de-la-recherche-mais-comment/

Paillassard P., 2019b, “Nouvelle ressource ! Données de la recherche : qui a les droits, quelles sont les obligations ? – DoRANum”, https://doranum.fr/2019/03/19/nouvelle-ressource-donnees-de-la-recherche-qui-a-les-droits-quelles-sont-les-obligations/

Partnership (IAP) the I. “Combatting Predatory Academic Journals and Conferences (Full Report in English)”, https://www.interacademies.org/publication/predatory-practices-report-English

Pdciuq P., 2022, “Pire que le Spam? Les éditeurs prédateurs, ce qu’ils peuvent faire à votre réputation de chercheur, comment éviter leurs pièges”, Tribune Compétences Informationnelles. https://tribuneci.wordpress.com/2022/02/15/pire-que-le-spam-les-editeurs-predateurs-ce-quils-peuvent-faire-a-votre-reputation-de-chercheur-comment-eviter-leurs-pieges/

Puren M., 2021, “Créer son plan de gestion des données”, https://hal.archives-ouvertes.fr/hal-03183724

Robin A., 2022, Droits des données de la recherche. https://licem.umontpellier.fr/publications/

Rosemberg N. “De la définition des données de la recherche”, En quête des données. https://donneesshs.hypotheses.org/39

fayet s. ““Données” de la recherche, les mal-nommées”, UrfistInfo. https://urfistinfo.hypotheses.org/2581

team O. “Formations et webinaires OpenEdition 2022”, L’Édition électronique ouverte. https://leo.hypotheses.org/18111

Wilson K., Montgomery L., Neylon C., Huang C.-K. (Karl), Handcock R. N., 2022, “The Curtin Open Knowledge Initiative: Sharing data on scholarly research performance”, LIBER Quarterly: The Journal of the Association of European Research Libraries, Vol.32, N°1, 1‑22.

Sites et outils

Notes de bas de page

  1. Vous en trouverez ici une définition large : https://opendefinition.org/od/2.1/en/↩︎

  2. Initiée en 2013 par des scientifiques de l’American society for cell biology (ASCB) et un groupe d’éditeurs de journaux scientifiques, elle remet en cause l’usage croissant du classement bibliométrique (Journal Impact Factor) comme indice au service de l’évaluation de la recherche et des chercheurs.↩︎

  3. Alain Schuhl, 2020, CNRS : un plan ambitieux pour des données accessibles et réutilisables. CNRS : un plan ambitieux pour des données accessibles et réutilisables↩︎

  4. Pour plus de détails, voir : https://www.ouvrirlascience.fr/deuxieme-plan-national-pour-la-science-ouverte/↩︎

  5. Lancé le 4 septembre 2018, le Plan S est une initiative impulsée par Science Europe (association d’organisations scientifiques, basée à Bruxelles, qui a aussi contribué à la coordination du plan de la Science Ouverte). Le plan exige que les scientifiques et les chercheurs bénéficiant d’un financement public pour leurs projets des organismes de recherche et institutions publient leurs travaux en accès libre dans des journaux Open Access conformes ou sur des plates-formes Open Access conformes.” Le contenu de ce plan a fait l’objet d’un débat sur le web clos le 1er février. C’est une initiative de la Commission européenne et de la “cOAlition S”, un consortium soutenu par le Conseil Européen de la Recherche et les agences de financement de la recherche de douze pays Européens dont l’ANR.↩︎

  6. L’accès au document est libre pour le lecteur mais l’auteur ou son institution paye des frais appelés Article processing charges (APC) pour financer la publication. Les APC prennent généralement la forme d’un coût à l’article, dont le montant varie de quelques centaines d’euros à plusieurs milliers (Source : https://scienceouverte.couperin.org/la-voie-doree-2/)↩︎

  7. Voici un article intéressant sur les éditeurs prédateurs : https://tribuneci.wordpress.com/2022/02/15/pire-que-le-spam-les-editeurs-predateurs-ce-quils-peuvent-faire-a-votre-reputation-de-chercheur-comment-eviter-leurs-pieges/↩︎

  8. En termes de droits d’auteur, il s’agit d’un cas particulier. La propriété des logiciels appartient à l’employeur. Normalement les logiciels et les codes sources sont inclus dans le principe de l’ouverture par défaut. Voir plus précisément “Le droit d’auteur du logiciel : traitement spécial” diapo 14 et suivantes : https://doranum.fr/wp-content/uploads/2019dec10_RS_CERFACS_TGD.pdf↩︎

  9. Kosmopoulos C., 2019, L’accès ouvert, un espoir qui donne le vertige…, Cybergeo Conversation↩︎