发表于 数据博客

从开放数据到AI-Ready数据:构建发展领域负责任的AI的基础

从开放数据到AI-Ready数据:构建发展领域负责任的AI的基础

发展数据的生成和使用在过去20年经历了重大转型。从纸质文档向数字格式的转变,使得数据更易于访问和共享。“开放数据运动”极大地提高了政府和机构数据集的可用性,反过来又催化了更多的分析、透明度和创新机会。大数据和数据科学领域的巨大进步进一步扩大了指导发展政策的信息量和多元化。

随着人工智能(AI) 的快速发展,发展数据现在到了又一个关键时刻:向 AI-Ready发展数据——即人类和 AI 应用都可以容易地发现、理解、访问和使用的数据——的演变。

 

为什么需要AI-Ready数据?

AI,尤其是大型语言模型 (LLM),正在彻底改变人类与数据的交互方式。从初次使用者到高级用户,不同经验和专业知识水平的数据用户现在都能够用自然语言向聊天机器人提出复杂的问题,期望聊天机器人能够快速找到、解释和呈现包装成简洁准确回复的数据驱动型见解。

为使这一演变取得成功,AI系统就需要确保准确性。这意味着首先必须以支持负责任和有效使用AI的方式对AI系统访问和解释的数据进行评估、验证、结构化处理、管理和共享。简而言之,数据必须是“AI-Ready”(AI就绪,即数据为支持AI应用做好了准备)的。

AI-Ready数据并不取代早先的进步、基本概念或标准,比如《官方统计基本原则》、开放数据框架或 FAIR原则(可查找、可访问、可互操作和可重用),而是建立在其基础之上。通过扩展既定的基础和标准,AI-Ready数据意味着发展数据是持续开放的、可发现的和可重用的,同时确保是经过系统编排和详尽记录的,以便于人类和AI系统的无缝使用。因此,确保AI数据就绪可以缩短发展数据与决策之间的距离,从而改善政策和加快创新,推动发展见解民主化。世界银行正在努力成为一个更大、更好的“数据银行”,并与各国合作伙伴和全球发展界合作,努力实现这一目标。

 

AI-Ready数据的理由

生成式AI已成为个人寻求信息、包括发展相关专题的一个关键性界面。谷歌的AI Overviews、微软的 Bing(必应)、Perplexity.AI 和 OpenAI 的 ChatGPT 等平台通过梳理互联网,整合不同的信息来源,生成对用户查询的响应。当然,其中的挑战是AI回复的权威性取决于输入的数据。现实情况是,AI系统通常使用一般的互联网内容(包括未经证实的来源)或网络搜索的结果,并不优先考虑世界银行或国家统计局等权威数据源。

由于目前的AI系统常常选择次优的发展数据源,因此用户经常会遇到过时或不正确的回复,即使是在有准确信息可供使用的情况下。这就有问题了,因为大部分AI回复看似提供了权威信息,但其实是幻觉。

需要强调的是,高质量、权威性的发展数据并不稀缺。换句话说,AI工具不需要依赖次优数据源来生成对发展问题查询的回复。缺失的是标准化的框架和稳健的基础设施,以使AI工具能够始终从可信来源查找、访问和使用可靠的发展数据,为用户查询提供准确的答案。

AI-Ready发展数据可以帮助克服这个信息完整性问题。政府、国际组织和私营部门通过遵循互操作性协议和标准,可以实现AI对可信发展数据的无缝访问和使用。这样做将有助于支持循证决策,增加公众获得可靠信息的机会,也能提升对权威发展数据和统计来源的信任。

 

如何实现数据“AI-Ready”?

AI-Ready发展数据经过系统编排和完整记录,确保其含义和上下文不仅对于相关专题的专家而且对于普通用户和AI系统都是清晰明确的。

以下三个核心支柱定义了AI-Ready发展数据:

  1. AI-Ready数据系统:基础设施(包括发现平台、API 接口和技术标准)确保数据不仅被存储起来,而且易于发现、互操作和访问。
  2. 高质量数据和元数据:可靠的、最新的和详尽记录的数据,以及全面和结构化的元数据。对于AI应用来说,这需要经过系统编排和充分具体说明的数据集,以确保机器和人类分析师都能准确地解释信息。
  3. 稳健治理和战略伙伴关系:实施全面的政策、标准化程序和跨部门协作对于确保数据完整性、提高透明度和推动负责任的使用至关重要。这些措施对于培养人类与AI利益相关方的公众信任至关重要。

通过利用这些基本要素,发展数据成为所有利益相关方都可以访问的资产。AI-Ready数据旨在促进公众访问,通过AI获得高级见解,促进全社会更快速、更明智的决策。

 

让AI-Ready数据成为现实

为了落实这些基本支柱,我们必须将原则转化为可操作的步骤。发展数据有多种形式,包括指标、微观数据和地理数据集。虽然以下建议可适用于不同类型的数据,但它们是专门针对指标量身定制的。

1. AI-Ready数据系统

  • 数据发现:结合语义与词汇搜索的混合搜索功能,使用户和AI系统能够根据含义以及关键字识别相关数据。提供多语言搜索支持,确保搜索结果可通过 API以机器可读格式获取。
  • 数据可访问性:实施开放的、机器可操作的标准,例如 SDMX(统计数据与元数据交换),并附有全面的 API 文档和强大的元数据,使AI系统能够有效地解释和集成数据。确保数据是在宽松的开放数据许可协议下可供使用的。
  • AI互操作性:采用开放标准,例如《模型上下文协议》 (Model Context Protocol, MCP),使AI系统能够有效地识别和解释可靠的数据源。确保透明度并对数据上下文和使用进行监督。

世界银行发展数据组和首席统计师办公室正在这些领域积极进行投资,包括试验高级搜索工具、开发低资源环境嵌入模型API 集成开发 MCP 服务器以支持新的Data360平台和其他选定的数据集等。

2.高质量数据和元数据

  • 数据质量保证:在各个阶段采用自动化验证流程和异常检测方法对数据进行全面验证。确保员工接受全面的数据质量管理培训,因为良好的数据保证对于人类和基于AI的数据分析都至关重要。
  • 多种传播格式:提供一系列开放数据格式,包括 CSV、Parquet、Arrow、JSON、API等,以满足不同的用户需求,促进无缝集成到 AI 工作流中。
  • 使用元数据标准:应用国际元数据标准,保持所有数据集的元数据新鲜度和详尽性。
  • 建立稳健的元数据标准:制定和实施针对生成结构化元数据的全面的、针对特定领域的指南,利用AI驱动的工具执行自动化质量保证和增强流程。
  • 管理工具:投资于先进平台和技术,通过利用AI解决方案,赋能数据和元数据验证以及稳健的大规模数据和元数据管理。

世界银行通过数据质量和“AI for Data/Data for AI”工作计划,通过提供开源资源,包括元数据编辑器、创建高质量元数据综合指南以及利用AI有效评估提高元数据质量的试点框架,推动这些举措的落实生效。

3.治理与伙伴关系

  • 政策合规性与问责制:实施强有力的政策以促进严格遵守数据和元数据质量、透明度和开放获取的标准。定期监测第三方使用情况,建立有效的反馈机制。
  • 伦理道德和隐私保护:将伦理道德考虑和隐私保护措施纳入数据处理的每个阶段,进行全面的影响评估,确保分析方法和数据源的透明度。
  • 国际合作:通过协调举措促进标准和术语的统一,加强技术援助流程,开发全面的共享工具和资源。
  • 与私营部门合作:培育与科技企业的合作伙伴关系,促进基于可靠和良好数据的AI工具开发。启动联合试点项目,传播公认的最佳实践,倡导所有举措提高透明度。此外,支持创建低资源AI解决方案,以确保资源严重受限的组织的可访问性。

世界银行正在与联合国统计委员会、国际货币基金组织、经合组织和非洲开发银行(AfDB)等国际组织、各国政府和私营部门建立伙伴关系,促进加强治理和采用国际标准与机制,利用AI系统有效地管理和使用发展数据。

 

为什么发展数据的AI就绪具有独特性?

发展数据不同于大多数私营部门数据,它必须满足包括政府、组织、研究人员、民间社会、企业和公众在内的各方面用户的需求。发展数据被视为“公共意图数据”(public intent data),要求具有公开性、透明性和问责性。由于发展数据影响着不同国家和制度的政策和投资决策,因此互操作性和详尽的文档w至关重要。

 

行动号召

向AI-ready发展数据的转变既具有紧迫性,又涉及范围广泛。实现这一目标需要采取以下措施:

  • 投资进行数据基础设施建设、技能提升并采用数据系统、元数据和治理相关国际标准。
  • 各国政府、国际组织和私营部门之间加强合作,促进最佳实践的交流并保持战略一致性。
  • 鉴于AI技术的性质和用户需求不断变化,持续开展创新并保持灵活性。

我们鼓励各国统计局、数据生产者、政策制定者和技术合作伙伴参与这一倡议。通过共同努力,而且必须采用国际数据质量标准,我们就可以确保在进入AI时代之际,发展数据继续成为一项可靠、包容和强大的公益资源。

让我们共同努力,为开创未来准备好发展数据,并确保所有人都能从中受益。


Haishan Fu

Chief Statistician of the World Bank Group and Director of the Development Data Group

Aivin Solatorio

Program Manager, Development Data Group, World Bank

Olivier Dupriez

Deputy Chief Statistician, World Bank

Craig Hammer

Senior Program Manager, Development Data Group, World Bank

加入讨论

此字段内容保密,不会公开显示
留言字数: 1000