La diversification des espaces de production du savoir

Par Michel Grossetti, Denis Eckert, Laurent Jégou, Marion Maisonobe, Yves Gingras et Vincent Larivière
Comment citer cet article
Michel Grossetti, Denis Eckert, Laurent Jégou, Marion Maisonobe, Yves Gingras et Vincent Larivière, "La diversification des espaces de production du savoir", CERISCOPE Puissance, 2013, [en ligne], consulté le 17/06/2019, URL : http://ceriscope.sciences-po.fr/puissance/content/part2/la-diversification-des-espaces-de-production-du-savoir

Notre étude se fonde sur les données de la base de données bibliographique du Web of Science (Thomson Reuters), et, pour certaines cartes, sur les données relatives seulement aux sciences de la matière et de la technique (Science Citation Index Expanded). Cette base recense depuis les années 1960 les publications (articles, notes et revues) parues dans les « principales revues scientifiques et technologiques internationales », c’est-à-dire celles qui sont les plus citées par les chercheurs eux-mêmes. Cette base de données recense plus d’un million de publications en 2007. Etablir des statistiques géographiques des publications scientifiques implique deux types de choix, l’un concernant la façon de compter les publications, l’autre le regroupement des adresses en agglomérations urbaines.

Compter les publications par entités spatiales : le fractionnement des publications

Le choix de l’unité de comptage doit tenir compte du fait que la plupart des publications scientifiques ont plusieurs auteurs, regroupés en affiliations (leur laboratoire ou institution d’appartenance) : les adresses renvoient donc à des villes différentes et souvent à des pays différents. Chaque publication peut ainsi être attribuée à plusieurs espaces géographiques simultanément, ce qui pose des problèmes de comptage et de dédoublement des mêmes publications. Ainsi, si un article comprend un premier groupe d’auteurs d’une commune de la banlieue de Madrid, Leganes, un deuxième groupe d’une autre banlieue de Madrid, Lugo, et un autre de Londres, comment faut-il compter ? Une fois pour le Royaume-Uni et une fois pour l’Espagne ? Ou deux fois pour l’Espagne ? Le comptage à l’échelle des villes pose le même problème. Faut-il compter deux fois l’agglomération de Madrid ou une seule fois ? On voit bien que la méthode de comptage influe sur le résultat final, que l’on parle du total national ou du total pour chaque ville. Par ailleurs, le comptage sans aucune pondération favorise les grandes agglomérations du fait de leur implication plus systématique dans les collaborations inter-régionales et internationales.

Pour éviter ces écueils, nous avons opté pour le comptage par publications fractionnées. Il existe plusieurs façons d’opérer ce fractionnement. Dans ce texte, nous avons opté pour le « whole normalized counting » en prenant les agglomérations comme base. Dans l’exemple que nous avons pris, où nous avions deux agglomérations (Londres et Madrid), chacune d’entre elles se voit attribuer une moitié de la publication. On peut donc simultanément faire toutes sortes de sommes en conservant le rapport avec le nombre réel de publications à l’échelle mondiale (puisque la somme des fractions correspond bien au nombre total d’articles publiés dans le monde). Le comptage par publications fractionnées nous est apparu comme le plus rigoureux et le plus respectueux de la réalité des activités scientifiques, et permettant le plus de traitements de nature géographique (regroupements spatiaux par agglomération, par région, par pays…).

Géocoder les adresses et construire des agglomérations : combiner les critères

A partir des dizaines de milliers d’adresses différentes trouvées dans le WoS, nous avons procédé à un géocodage des lieux mentionnés. Nous sommes arrivés à localiser plus de 98 % des publications en exploitant au niveau le plus fin le champ « adresse » des notices d’articles. Les « localités scientifiques » que nous avons déterminées constituent les points de publication les plus précis que notre méthode de codage a permis de situer. Mais le niveau de précision obtenu varie sensiblement suivant les villes et les pays considérés, car, généralement, l’adresse contenue dans ce champ correspond à la municipalité où se trouve l’organisme de recherche, qui est une entité spatiale dont la taille peut varier considérablement d’un pays à l’autre, en fonction du degré de fragmentation administrative. Prenons trois exemples : les chercheurs des laboratoires moscovites travaillent dans une municipalité très grande (1 000 km2), leur adresse renvoie donc à une seule ville : Moscou. En revanche, les chercheurs parisiens travaillent dans un espace administrativement très fragmenté : leur adresse professionnelle peut être la commune-centre de l’agglomération, c’est-à-dire Paris (100 km2 seulement), mais aussi bien l’une des centaines de municipalités qui font partie de l’agglomération parisienne. Et beaucoup de centres scientifiques sont situés en dehors de la (relativement petite) commune de Paris. Les localités scientifiques les plus importantes autour de Paris-centre sont Orsay, Gif-sur-Yvette, Palaiseau, Villejuif, Créteil, Châtenay-Malabry. En 2008, elles totalisaient 3 426 publications, soit presque la moitié des publications de Paris-centre. Un autre exemple caractéristique est la région urbaine de Washington. Dans un espace compact de quelques dizaines de kilomètres, bien plus petit que la municipalité de Moscou, on trouve trois centres majeurs : la ville de Washington DC proprement dite (2 500 publications), mais avant elle le grand centre universitaire de Bethesda (3 178) et, un peu derrière, College Park (1 236). Il est donc indispensable de construire des entités urbaines à peu près comparables si l’on veut donner une certaine substance à la notion de « villes scientifiques » et analyser l’évolution de leur position dans le système de la science mondiale. Ne prendre en compte que Paris-centre ou le seul district de Washington revient à sous-estimer gravement l’importance de ces deux régions urbaines dans la production scientifique mondiale.

Comment faire alors pour regrouper les localités publiantes en entités urbaines construites sur des critères homogènes, et ce pour l’ensemble des pays du monde ? Notre ambition a été de produire des critères universels, et non pas des découpages correspondant à une juxtaposition de critères nationaux (prendre les aires métropolitaines pour les Etats-Unis, les aires urbaines pour la France, etc., et finalement faire comme si ces délimitations étaient comparables). Après la confrontation de différents jeux de données mondiaux, tous en libre accès – sur l’occupation du sol d’une part (Iona Global Cover, Global Urban Extent), sur les densités de population d’autre part (Global Population of the World), nous avons conclu que les meilleures données pour délimiter rapidement l’ensemble des villes du monde étaient celles relatives à la densité de population (données par carroyage très fines). En effet, les données d’artificialisation du sol (grâce auxquelles on peut repérer les taches urbaines) ne sont pas assez discriminantes. Elles ne permettent pas de faire la différence, par exemple dans les zones littorales, entre ce qui correspond à du bâti touristique où il n’y a pas forcément d’occupation humaine continue sur l’année, et d’autres lieux plus susceptibles d’abriter de l’activité scientifique (villes avec leurs campus, leurs parcs technologiques) et où la densité de population permanente est plus forte.

L’exploitation des données de densité de population est donc plus convaincante. Il restait néanmoins des problèmes dans quelques régions du monde à très forte densité de population (parties les plus denses de la Chine, Pays-Bas, région urbaine Rhin-Ruhr), où l’exploitation de seuils de densité habituels ne permettait pas d’isoler facilement les véritables noyaux urbains. De ce fait, la meilleure approche a été d’utiliser un indicateur permettant de déterminer spatialement les fortes variations de densité, afin de nous aider à produire une délimitation utilisable des espaces urbains. Parmi les indicateurs locaux d’association spatiale (Local Indicators of Spatial Association, voir Eckert et al. 2013), nous avons choisi l’indice local de Moran qui permet de repérer les noyaux de densité significatifs. Ce traitement des données de densité permet de trouver un critère homogène pour les agglomérations importantes. Pour les entités urbaines, plus petites, un critère plus simple de distance (un seuil de 40 km entre deux localités productrices de publications) nous a permis de délimiter de « petites » agglomérations scientifiques.

Nous avons pu ainsi créer des regroupements de localités, en simplifiant et en homogénéisant l’information de départ. De ce fait, nous avons constaté que 95 % de l’activité scientifique mondiale était concentrée, en 2007, dans 1 257 agglomérations.