Publié sur Blog de Données

Des données ouvertes aux données prêtes pour l'IA : poser les bases d'une IA responsable au service du développement

Des données ouvertes aux données prêtes pour l'IA : poser les bases d'une IA responsable au service du développement

La production et l'utilisation des données sur le développement se sont considérablement modifiées ces vingt dernières années. La transition des dossiers papier vers des formats numériques a rendu les données plus accessibles et plus faciles à partager. Par ailleurs, le mouvement de libre accès aux données a nettement amélioré la disponibilité des données gouvernementales et institutionnelles, ce qui a eu pour effet de favoriser les analyses, la transparence et l'innovation. Enfin, les avancées majeures dans les domaines du big data et des sciences des données ont permis d'accroître encore le volume et la diversité des informations qui guident les politiques de développement.

Avec les progrès rapides de l'intelligence artificielle (IA), nous arrivons aujourd'hui à un nouveau tournant : l'évolution vers des données sur le développement prêtes pour l'IA, à savoir des données facilement trouvables, compréhensibles, accessibles et utilisables à la fois par les humains et par les applications d'IA.
 

Pourquoi des données prêtes pour l'IA ?

L'IA, en particulier les grands modèles de langage, transforme complètement la façon dont on interagit avec les données. Tous les utilisateurs, qu'ils soient débutants ou chevronnés, sont désormais en mesure de poser des questions complexes en langage naturel à des chatbots. Et ils s'attendent à ce que ceux-ci trouvent, interprètent et présentent rapidement des informations basées sur des données, sous forme de réponses brèves et précises.

Pour que cette évolution soit couronnée de succès, les systèmes d'IA doivent être performants. Cela signifie que les données auxquelles ces systèmes accèdent et qu'ils interprètent doivent d'abord être évaluées, validées, structurées, réglementées et partagées de manière à permettre une utilisation responsable et efficace de l'IA. En résumé, les données doivent être « prêtes pour l'IA ». 

Cette évolution ne se substitue pas aux avancées antérieures, aux concepts de base ou aux normes, tels que les principes fondamentaux de la statistique officielle, les cadres de libre accès aux données ou les principes FAIR (Facilement trouvable, Accessible, Interopérable et Réutilisable), mais au contraire elle s'y adosse. En élargissant les fondations et les normes établies, les données prêtes pour l'IA impliquent que les données sur le développement soient continuellement ouvertes, accessibles et réutilisables, tout en garantissant qu'elles soient systématiquement organisées et bien documentées, et ce pour faciliter une utilisation transparente par les personnes et les systèmes d'IA. Assurer la préparation à l'IA peut ainsi rapprocher les données sur le développement des décisions qu'elles orientent. Cela favorise de meilleures politiques, des innovations plus rapides et la diffusion plus large des connaissances sur le développement La Banque mondiale, dans le cadre de sa volonté de devenir une « banque des données » plus grande et meilleure, s'efforce déjà de faire en sorte que cela devienne réalité, en partenariat avec les pays partenaires et la communauté mondiale du développement.
 

Les arguments en faveur de données prêtes pour l'IA

L'IA générative s'est imposée comme une interface clé pour les personnes à la recherche d'informations, y compris sur des sujets liés au développement. Des plateformes telles que AI Overviews de Google, Bing de Microsoft, Perplexity.AI et ChatGPT d'OpenAI parcourent l’internet et combinent différentes sources d'information pour produire des réponses aux questions des utilisateurs. Le problème, bien sûr, c'est que les réponses de l'IA ne sont valables que dans la mesure où les données qui les sous-tendent sont fiables. En réalité, ces systèmes s'appuient souvent sur le contenu général d'internet (y compris des sources non validées) ou sur les résultats de recherches sur le web, plutôt que de donner la priorité à des sources de données qui font autorité, comme la Banque mondiale ou les bureaux nationaux de statistiques.

Étant donné que les systèmes d'IA actuels sélectionnent souvent des sources de données sur le développement peu pertinentes, les utilisateurs obtiennent fréquemment des réponses obsolètes ou incorrectes, même lorsque des informations exactes sont par ailleurs disponibles. Cela pose problème, car la plupart des réponses de l'IA ressemblent à des informations fiables, même quand elles relèvent de l'hallucination.

Il est important de souligner que, pourtant, les données sur le développement de grande qualité et faisant autorité ne sont pas rares. En d'autres termes, les outils d'IA ne devraient pas s'appuyer sur des sources de données peu fiables pour produire des réponses à des requêtes portant sur des sujets liés au développement. Ce qui fait défaut, c'est un cadre normalisé et une infrastructure robuste pour permettre aux outils d'IA de trouver, d'accéder et d'utiliser de manière cohérente des données sur le développement fiables provenant de sources dignes de confiance afin de fournir des réponses exactes aux questions des utilisateurs.

Les données sur le développement prêtes pour l'IA peuvent aider à remédier à ce problème d'intégrité de l'information. En effet, il est possible d’assurer un accès fluide de l'IA à des données fiables sur le développement et leur utilisation, cela passe par l'adoption de protocoles et de normes d'interopérabilité par les gouvernements, les organisations internationales et le secteur privé. Cette démarche contribuera à éclairer des décisions fondées sur des données probantes, à améliorer l'accès du public à des informations valides et à susciter la confiance dans les sources de données et les statistiques sur le développement.
 

En quoi consistent des données « prêtes pour l'IA » ?

Les données sur le développement prêtes pour l'IA sont systématiquement organisées et minutieusement documentées afin que leur signification et leur contexte soient clairs non seulement pour les experts du domaine, mais aussi pour les utilisateurs ordinaires et les systèmes d'IA. Elles reposent sur trois piliers fondamentaux :

  1. Des systèmes de données prêts pour l'IA : l'infrastructure essentielle — les plateformes de recherche, les interfaces de programmation d'application (API) et les normes techniques — garantit non seulement le stockage des données, mais aussi la facilité à les trouver, leur interopérabilité et leur accessibilité.
  2. Des données et métadonnées de grande qualité : des données fiables, actualisées et soigneusement documentées doivent s'accompagner de métadonnées complètes et structurées. Pour les applications d'IA, cela signifie que les ensembles de données sont systématiquement organisés et décrits avec suffisamment de détails pour que les analystes humains et les machines puissent interpréter les informations avec précision.

  3. Une gouvernance solide et des partenariats stratégiques : la mise en œuvre de politiques globales, de procédures normalisées et de collaborations entre les secteurs est essentielle pour garantir l'intégrité des données, améliorer la transparence et promouvoir une utilisation responsable. Ces éléments sont fondamentaux pour maintenir un sentiment de confiance dans la société en général et parmi ceux qui développent et déploient des systèmes d'IA.

En tirant parti de ces éléments fondamentaux, les données sur le développement deviennent un atout accessible à toutes les parties prenantes. Les données prêtes pour l'IA sont en mesure d'améliorer l'accès du public, de permettre des analyses avancées grâce à l'IA et de faciliter une prise de décision plus rapide et plus éclairée dans l'ensemble de la société.
 

Donner corps aux données prêtes pour l'IA

Pour que ces piliers fondamentaux soient opérationnels, nous devons traduire les principes en mesures concrètes. Les données sur le développement prennent plusieurs formes, entre autres des indicateurs, des microdonnées et des ensembles de données géographiques. Bien que les recommandations suivantes puissent être adaptées à différents types de données, elles sont spécialement conçues pour les indicateurs.

1. Systèmes de données prêts pour l'IA

  • Découverte des données : intégrer des capacités de recherche sémantique et lexicale pour permettre aux utilisateurs et aux systèmes d'IA de repérer les données pertinentes sur la base du sens et de mots clés ; prendre en charge la recherche multilingue et veiller à ce que les résultats soient accessibles dans des formats lisibles par machine via des API.

  • Accessibilité des données : mettre en œuvre des normes ouvertes et exploitables par les machines, telles que le standard SDMX, accompagnées d'une documentation complète sur les API et de métadonnées solides permettant aux systèmes d'IA d'interpréter et d'intégrer efficacement les données ; veiller à ce que les données soient mises à disposition sous des licences de données ouvertes permissives.

  • Interopérabilité de l'IA : utiliser des normes ouvertes comme le Model Context Protocol (MCP) pour que les systèmes d'IA puissent repérer et interpréter efficacement des sources de données fiables ; garantir la transparence et maintenir la surveillance sur le contexte et l'utilisation des données.

La cellule Gestion des données sur le développement et le Bureau de la statisticienne en chef de la Banque mondiale s'investissent activement dans ces domaines, notamment en testant des outils de recherche avancés (a), en développant des modèles d'intégration adaptés aux environnements à faibles ressources (a), en intégrant des API (a) et en développant un serveur MCP (a) pour prendre en charge la nouvelle plateforme Data360 et un certain nombre d'autres ensembles de données.

2. Données et métadonnées de grande qualité

  • Assurance qualité des données : procéder à une validation complète des données à chaque étape, en utilisant des processus de vérification automatisés ainsi que des méthodologies de détection des anomalies ; veiller à ce que le personnel reçoive une formation approfondie sur la gestion de la qualité des données, car une solide assurance des données est essentielle tant pour les analyses humaines que pour celles basées sur l'IA.

  • Formats de diffusion multiples : fournir les données dans une gamme de formats ouverts, notamment CSV, Parquet, Arrow, JSON et API, de manière à répondre aux diverses exigences des utilisateurs et à faciliter une intégration transparente dans les flux de travail de l'IA.

  • Utilisation de normes de métadonnées ouvertes : appliquer les normes internationales relatives aux métadonnées et veiller à ce que toutes les métadonnées des jeux de données soient à jour et détaillées.

  • Définir de solides normes en matière de métadonnées : formuler et mettre en œuvre des lignes directrices exhaustives et spécifiques à chaque domaine pour générer des métadonnées structurées, en utilisant des outils pilotés par l'IA pour réaliser des processus automatisés d'assurance et d'amélioration de la qualité.

  • Outils de gestion : investir dans des plateformes et des technologies avancées qui permettent la validation des données et métadonnées, ainsi que la généralisation d'une gestion fiable de celles-ci, en s'appuyant sur des solutions d'intelligence artificielle.

La Banque mondiale, par l'intermédiaire de ses programmes de travail sur la qualité des données et l'IA pour les données/les données pour l'IA, fait progresser ces initiatives en fournissant des ressources en libre accès, notamment un éditeur de métadonnées (a), des directives détaillées pour la création de métadonnées de haute qualité et des cadres pilotes qui tirent parti de l'IA (a) de manière à évaluer et renforcer la qualité des métadonnées (a).

3. Gouvernance et partenariats

  • Respect des politiques et responsabilité : mettre en œuvre des politiques solides qui favorisent des normes rigoureuses sur la qualité des données et des métadonnées, la transparence et le libre accès ; contrôler régulièrement l'utilisation par des tiers et mettre en place des mécanismes efficaces de retour d'information.

  • Éthique et protection de la vie privée : intégrer des considérations éthiques et des mesures de protection de la vie privée à chaque étape du traitement des données, réaliser des évaluations d'impact exhaustives et garantir la transparence des méthodologies analytiques et des sources de données.

  • Collaboration internationale : faciliter l'harmonisation des normes et de la terminologie au moyen d'initiatives coordonnées, améliorer les processus d'assistance technique et mettre au point des ressources et des outils partagés et efficaces.

  • Coopération avec le secteur privé : favoriser les partenariats avec les entreprises technologiques afin de promouvoir le développement d'outils d'IA fondés sur des données fiables et bien gérées ; lancer des projets pilotes communs, diffuser les bonnes pratiques validées et promouvoir une transparence renforcée dans toutes les initiatives. Il faut en outre soutenir la création de solutions d'IA peu gourmandes en ressources afin de garantir l'accessibilité aux organisations en butte à d'importantes limitations de moyens.

La Banque mondiale établit des partenariats entre des organisations internationales — notamment la Commission statistique des Nations Unies, le FMI, l'OCDE et la Banque africaine de développement (BAD) —, des pays et le secteur privé afin de promouvoir une bonne gouvernance et l'adoption de normes et de mécanismes mondiaux (a) permettant de gérer et d'utiliser efficacement des données sur le développement adaptées au travail avec les systèmes d'IA.
 

En quoi la préparation à l'IA des données sur le développement est-elle particulière ?

Les données sur le développement diffèrent de la plupart de celles du secteur privé, car elles doivent répondre aux besoins d'utilisateurs divers, notamment les pouvoirs publics, les organisations, les chercheurs, la société civile, les entreprises et le public. Considérées comme des données à vocation publique, elles doivent être ouvertes, transparentes et responsables. Sachant que les données sur le développement influencent les décisions politiques et d'investissement dans les différents pays et systèmes, l'interopérabilité et une documentation approfondie sont essentielles.

L'utilisation et la réutilisation permanentes des données sur le développement génèrent d'autres avantages. En rendant les données sur le développement prêtes pour l'IA et accessibles aux solutions alimentées par l'IA dans les secteurs public et privé, nous augmenterons leur impact, favoriserons un partage plus équitable des bénéfices et renforcerons la confiance dans une utilisation responsable des données. L'IA peut nous aider à dégager une valeur économique et sociale plus large et potentiellement transformatrice à partir des données, en renforçant nos actions pour améliorer les vies, stimuler le développement économique et mettre fin à la pauvreté.
 

Un appel à l'action

La transition vers des données sur le développement prêtes pour l'IA est à la fois urgente et ambitieuse. La concrétisation de cet objectif nécessitera :

  • des investissements dans les infrastructures de données, le développement des compétences et l'adoption de normes mondiales relatives aux systèmes de données, aux métadonnées et à la gouvernance ;

  • une coopération entre les gouvernements, les organisations internationales et le secteur privé pour faciliter l'échange de bonnes pratiques et maintenir une cohérence stratégique ;

  • de l'innovation et une flexibilité permanentes, compte tenu de la nature évolutive des technologies de l'IA et des besoins des utilisateurs.

Nous encourageons les bureaux nationaux de statistiques, les producteurs de données, les décideurs politiques et les partenaires technologiques à prendre part à cette initiative. Grâce à un effort de collaboration et à l'adoption nécessaire de normes mondiales de qualité des données, nous pouvons faire en sorte que les données sur le développement continuent de servir de ressource fiable, inclusive et solide pour le bien public à mesure que nous progressons dans l'ère de l'IA.

Travaillons tous ensemble afin de préparer les données sur le développement pour le futur et faire en sorte que leurs apports bénéfiques soient accessibles à tous.


Haishan Fu

Statisticienne en chef de la Banque mondiale et directrice de la cellule Données sur le développement

Aivin Solatorio

Chef de programme, cellule Gestion des données sur le développement, Banque mondiale

Olivier Dupriez

Statisticien en chef adjoint à la Banque mondiale.

Craig Hammer

Chef de programme senior, cellule Gestion des données sur le développement, Banque mondiale

Prenez part au débat

Le contenu de ce champ est confidentiel et ne sera pas visible sur le site
Nombre de caractères restants: 1000