Geeek.org • Blog Dev & High Tech 100% Indépendant

Tout le monde connaît Wikipédia. Mais connaissez-vous Wikidata ?

Wikidata fait partie de la longue liste de projets gérés par la Fondation Wikimedia, au même titre que Wikipédia, Wikimedia Commons ou Wiktionnaire. Là où Wikipédia stocke de la connaissance sous forme de texte, donc de donnée non structurée, Wikidata fait exactement l'inverse : il stocke et expose des entités liées entre elles. Cela revient à construire un immense graphe de connaissance, dans lequel chaque personne, organisation, lieu ou concept est relié aux autres par des attributs lisibles par une machine.

Wikidata, qu'est-ce que c'est exactement ?

Wikidata est une base de connaissance libre, collaborative et multilingue. Chaque entité y porte un identifiant unique : un Q pour les éléments (Q42 pour Douglas Adams, par exemple) et un P pour les propriétés (P50 pour l'auteur, P19 pour le lieu de naissance). En assemblant ces briques, on obtient des affirmations du type sujet, prédicat, objet : ce que le monde de la donnée appelle un triplet RDF.

wikidata-modele-donnees.svg

Le volume donne le vertige. Wikidata dépassait déjà 1,5 milliard de triplets sémantiques à la mi-2024 [1]. Et toute cette donnée n'est pas seulement consultable à la main : elle est interrogeable par requête, via un point d'accès SPARQL public [2]. On peut ainsi demander « tous les écrivains français nés à Nantes » et obtenir une réponse exploitable, là où une recherche classique ne renverrait qu'une liste de pages à lire.

#!/usr/bin/env bash
# Liste les écrivains nés à Nantes via le point d'accès SPARQL de Wikidata.
# Dépendances : curl et jq.

ENDPOINT="https://query.wikidata.org/sparql"

# Q5 = être humain, P106 = occupation, Q36180 = écrivain,
# P19 = lieu de naissance, Q12191 = Nantes.
QUERY='SELECT ?ecrivain ?ecrivainLabel WHERE {
  ?ecrivain wdt:P31 wd:Q5 ;
            wdt:P106 wd:Q36180 ;
            wdt:P19 wd:Q12191 .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "fr,en". }
}
ORDER BY ?ecrivainLabel'

# Wikimedia impose un User-Agent descriptif, sous peine de blocage (HTTP 429).
curl -s -G "$ENDPOINT" \
  --data-urlencode "query=$QUERY" \
  -H "Accept: application/sparql-results+json" \
  -H "User-Agent: Geeek-demo/1.0 (https://www.geeek.org)" \
  | jq -r '.results.bindings[].ecrivainLabel.value'

Comment fonctionne Wikidata ?

Sur le fond, Wikidata est une base de données orientée graphe, alimentée par des contributeurs et des imports automatisés. Sa logique n'est pas isolée : elle appartient à la même famille que les données structurées que l'on retrouve aujourd'hui sur une majorité de pages Web, ces blocs JSON-LD qui décrivent un article, une FAQ ou une organisation au format Schema.org.

C'est le même esprit, celui du Linked Open Data : décrire le monde de façon explicite pour que les machines le comprennent sans deviner. Quand vous injectez un JSON-LD sur l'une de vos pages, comme je l'ai détaillé dans mon article sur les microdonnées FAQ en JSON-LD, vous appliquez cette logique à l'échelle d'une page. Wikidata l'applique à l'échelle de la connaissance mondiale.

Pourquoi les LLM apprécient autant Wikidata ?

Pour construire un modèle de langage, il faut de la connaissance, et surtout de la connaissance de haute qualité si l'on veut limiter les hallucinations au moment des requêtes. Or la donnée disponible sur Internet est partout : sites de presse, blogs, forums, dépôts de code comme GitHub pour le monde informatique, et bases ouvertes comme Wikipédia pour la connaissance du monde.

Chaque source possède un niveau de fiabilité différent. Un modèle considérera spontanément une fiche Wikipédia comme plus solide qu'un message de forum. Wikidata pousse ce raisonnement un cran plus loin : la donnée y est non seulement fiable, mais déjà structurée et reliée. Pour un LLM, c'est la différence entre lire un paragraphe et consulter une fiche prête à l'emploi.

Trois usages expliquent cet engouement :

  • Wikidata alimente le Knowledge Graph de Google, donc les fameux encarts de connaissance affichés à droite des résultats [3].
  • Wikidata figure parmi les bases de connaissances ouvertes les plus réutilisées pour entraîner et ancrer les modèles de langage [4]. Une entité bien décrite y a davantage de chances d'être reconnue, correctement attribuée et citée avec assurance.
  • Wikidata est interrogeable en direct par les agents, via SPARQL, pour aller chercher un fait vérifié au lieu de le reconstituer de mémoire.

Vous comprenez pourquoi cette base pèse lourd dans une stratégie de Generative Engine Optimization (GEO). Être présent et bien décrit dans Wikidata, c'est exister proprement dans l'écosystème qui nourrit l'IA, et cela d'un seul coup pour de nombreux systèmes à la fois.

Tout le monde peut-il entrer dans Wikidata ?

C'est là que je m'étais trompé. Je pensais au départ que Wikidata était au moins aussi sélectif que Wikipédia, et qu'une « notoriété publique » était indispensable. En réalité, c'est l'inverse : les critères d'admissibilité de Wikidata sont volontairement plus souples [5].

Un élément est accepté dès lors qu'il remplit au moins un de ces trois critères :

  1. Il possède un lien valide vers une page d'un projet Wikimedia (un article Wikipédia dans n'importe quelle langue, une catégorie Commons, une page Wikisource, etc.). Si vous disposez déjà d'une fiche Wikipédia, même dans une langue exotique, vous êtes automatiquement admissible.
  2. Il désigne une entité clairement identifiable, matérielle ou conceptuelle, que l'on peut décrire à l'aide de sources sérieuses et publiquement accessibles. C'est le critère le plus accessible, et celui que remplissent la plupart des personnes et organisations. Les identifiants délivrés par des tiers faisant autorité (VIAF, ISNI, identifiant BnF, GND, registres officiels) renforcent fortement cette admissibilité. Attention toutefois : un identifiant que l'on alimente soi-même, comme un ORCID, constitue un signal beaucoup plus faible aux yeux des administrateurs.
  3. Il répond à un besoin structurel, c'est-à-dire qu'il rend plus utiles les affirmations portées par d'autres éléments. L'auteur d'un ouvrage référencé, le développeur d'un logiciel notable ou le membre d'une organisation connue entre dans cette catégorie.

La barre est donc plus proche de « existence vérifiable » que de « célébrité ». Deux nuances méritent toutefois d'être posées clairement. D'abord, le critère 2 reste volontairement flou, au point de faire l'objet de discussions de réforme au sein de la communauté [6]. Ensuite, et c'est le point important, l'auto-promotion est explicitement découragée. Créer soi-même son propre élément relève du conflit d'intérêts [7], et un élément sans la moindre source finit supprimé. L'admissibilité large ne signifie pas absence de garde-fous.

Mon retour d'expérience

Je ne vais pas vous faire la leçon, car je me suis pris ce mur en pleine figure. J'ai tenté de créer ma propre entité Wikidata, ainsi que celle du blog. Quelques jours plus tard, un administrateur (Madamebiblio) a supprimé les deux fiches indiquant que celles-ci ne répondent pas aux exigences de notabilité [5:1].

Avec le recul, le verdict était écrit d'avance, et il illustre exactement les garde-fous décrits plus haut. En créant moi-même ces éléments, je me plaçais d'emblée en situation de conflit d'intérêts, ce que la communauté décourage explicitement. Et mes fiches manquaient de ce qui fait tenir un élément : non pas mes propres profils ou mon propre site, mais des sources indépendantes et des identifiants d'autorité délivrés par des tiers. Un ORCID que l'on remplit soi-même ne prouve rien aux yeux d'un administrateur. Une notice BnF ou VIAF, générée parce qu'une bibliothèque a catalogué un ouvrage publié, pèse infiniment plus lourd. La leçon est claire : sur Wikidata, on ne décrète pas sa propre notoriété, on la laisse se constater par des traces externes que l'on ne contrôle pas.

Conclusion

Wikidata est sans doute l'un des projets les plus sous-estimés de la galaxie Wikimedia. Invisible pour le grand public, il est pourtant devenu une couche d'infrastructure essentielle : il structure la connaissance, alimente les moteurs de recherche et nourrit les modèles de langage. Pour quiconque travaille la visibilité de ses contenus à l'ère de l'IA, comprendre Wikidata n'est plus une curiosité d'érudit, c'est un sujet de fond.

Ce sujet vous intéresse ? N'hésitez pas à passer sur le serveur Discord Geeek.


  1. Estimation de mi-2024, en croissance constante depuis. Les compteurs à jour (nombre d'éléments et de triplets) figurent sur la page Wikidata:Statistics. ↩︎

  2. Point d'accès SPARQL public de Wikidata : https://query.wikidata.org ↩︎

  3. Google a fermé Freebase, qui alimentait historiquement son Knowledge Graph, et en a migré les données vers Wikidata à partir de 2015. Voir Thomas Pellissier Tanon et al., « From Freebase to Wikidata: The Great Migration », WWW 2016, ainsi que la fiche Freebase : https://en.wikipedia.org/wiki/Freebase_(database) ↩︎

  4. Wikidata est régulièrement citée parmi les bases ouvertes réutilisées pour entraîner ou ancrer les modèles. La composition précise des corpus d'entraînement reste cependant rarement documentée publiquement par les laboratoires. ↩︎

  5. Politique de notoriété de Wikidata : https://www.wikidata.org/wiki/Wikidata:Notability ↩︎ ↩︎

  6. L'interprétation du critère 2 fait l'objet de discussions au sein de la communauté. Voir Wikidata:Requests for comment/Notability policy reform (https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Notability_policy_reform) et la refonte de 2015, Notability overhaul (https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Wikidata:Notability_overhaul). ↩︎

  7. La politique précise que créer un élément sur soi-même, ses proches ou son entreprise n'est pas autorisé, afin d'éviter tout conflit d'intérêts. Voir Wikidata:Requests for comment/Conflict of Interest : https://www.wikidata.org/wiki/Wikidata:Requests_for_comment/Conflict_of_Interest ↩︎


Vous êtes correctement abonné à Geeek.org
Bienvenue ! Vous êtes correctement connecté.
Parfait ! Vous êtes correctement inscrit.
Votre lien a expiré
Vérifiez vos emails et utiliser le lien magique pour vous connecter à ce site