发表于 数据博客

我们如何制作公开数据:#1—选择发展指标

版本:

Lorenz Noe最近提出的一个问题引起了我们的注意——我们如何选择在我们《公开数据动议》的重要组成部分——《世界发展指标》(WDI)报告中予以公布的指标?这一问题提得很好,因此我认为我本人应该就此撰写一篇博文,同时我们也将在数据帮助网页上刊登类似内容。

1. 没有哪一个指标是完美无缺的

数据通常存在缺口


正如生活中的许多事情一样,为《世界发展指标》选择指标并不是一项精确工作,其初衷是使这些指标能够较广泛地覆盖发展问题,但与我们合作的很多国家并具备诸如美国等国所具备的数据数量或质量。

以美联储经济数据库为例(FRED)。单该数据库本身就包含了关于美国的123622个经济类时间序列指标,其中包括诸如州一级等地方指标(我将本文结尾处揭晓我们在《2014年世界发展指标》中收录了多少个指标)。在许多低收入和中等收入国家,我们通常不可能找到像美国这样的指标覆盖水平。

因此,尽管我们遵循了一套基本原则,但我们能够找到并公布完美指标的情况相对罕见。所谓完美指标,就是指对衡量某一特定发展问题最为相关、从每个国家每年都能够获得并且准确率很高的指标。

更为常见的是,各指标都存在诸多局限性中的一种。我们尽可能在我们的元数据中以及在《世界发展指标》表格章节“关于相关数据”中介绍了这些局限性。您将能够在《世界发展指标》在线表格以及数据银行中找到该元数据,其中包含指标定义、来源、频率、所采用的汇总方法、统计概念和统计方法、对发展的相关性以及局限性和例外情况等内容。给出这些注释的初衷是帮助数据用户确定某一特定指标是否符合其要求。

就我们自身而言,我们需要判断选择哪个指标在《世界发展指标》中予以公布;同时您也要判断该指标是否有用。

2. 指标具有相关性吗?

Spurious Correlation

 

这可能是最难以执行的原则之一,但我们足够幸运,能够利用世界银行集团发展领域专业人士的经验和技术专长。我们与这些专业人士密切合作,为《世界发展指标》所阐述的每个议题找出最合适的指标。这些议题包括世界观、人文、环境、经济、国家与市场以及全球联系。此外,我们也通过诸如联合国教科文组织统计研究所等机构以及诸如千年发展目标指标事宜机构间专家组等工作组,征求国际统计界的意见。其中,该专家组可为2015年后发展框架选择哪些指标提出一些很有价值的建议。

同时,我们借助有可能形成新数据集的新研究、对社会媒体的讨论(包括博客文章)以及其它传媒渠道,持续关注新想法以及我们可以改善的指标。需要在此指出的一点是,《世界发展指标》并不是发展指标的唯一来源——我们在公开数据目录中还收录了更多专门数据,可供在性别教育卫生等专题方面寻找更多、更详细指标的用户使用。

3. 数据是公开数据吗?

Screen Shot 2014-05-20 at 3.05.50 PM.png

鉴于世界银行于2010年4月启动实施其《公开数据动议》,因此我们必须要确保我们《世界发展指标》中公布的任一数据能够按照数据集 使用条款得以免费传播。我们可以从诸如联合国多个专门机构等 伙伴机构获得很多数据集和时间序列指标,也可以借助使用从公开来源(例如 国家统计部门)所获数据的世界银行国别团队或世界银行工作人员的工作成果(如通过 PovcalNet获得的 贫困发生率估算结果获得数据集和时间序列指标。

很显然,如果任何一个机构因我们实施的 数据许可制度而无法提供其数据,则我们就不能将这些数据选作《世界发展指标》的指标。例如,国际电信联盟目前 通过订购服务提供其大部分指标,仅免费提供一些子指标。因此,我们只能在《世界发展指标》中收录最具相关性的“免费”指标。

4. 指标的覆盖面广吗?其时间跨度及在全世界的地域覆盖如何?

人口密度

答案似乎很明确,但我们尽量在《世界发展指标》中收录从世界上大多数国家或至少是世界银行借款客户国可以获得估算结果的指标。因此,那些可能很相关但仅针对少数几个国家的指标可能不会被选为收录对象。此外,仅针对某个时间点或很少几个年份的指标可能也难以被收录。

不过,也有一些例外:例如,我们目前收录了从 国际比较项目2005轮次获得的仅针对2005年基准年的购买力评价数据(当然,我们也收录了从最近的2011轮次获得的 数据)。较广的覆盖面很重要,因其能够全面揭示发展状况,同时也便于把数据进行累加,这样就可以得到所有地区或所有国家的汇总数据或平均数据。

 

5. 不同年份和不同国家具有可比性吗?

比较选定国家在不同时期的GDP

尽量选择在不同年份和不同国家之间具有可比性的指标也很重要。《世界发展指标》的优势之一是能够比较不同指标在各国的变化值和变化率,也能够对一国数值与其所属地区或国家组别的平均值或总值进行比较。只有具备可比性,才有可能汇总为每个国家编制的指标。

例如,对国内生产总值(GDP)(在《世界发展指标》数据集中公布的指标中,该指标使用次数最多)的估算是按照国民经济核算体系要求分国别进行的。国民经济核算体系是联合国统计委员会认可的编制具有可比性的经济统计数据时所采用的框架。另一个很好的例子是五岁以下儿童死亡率:通常,针对该指标的估算结果有很多,联合国儿童死亡率机构间估算小组对所有来源的估算结果进行评估,判定其可靠性和可比性,在此基础上制定一个在各国之间具有可比性的序列数据。

存在三种例外情况:例如,《世界发展指标》中收录了国家贫困率序列数据。由于各国用其自身方法来计算贫困率,因此这方面的数据没有可比性,也不能据此得出总值和平均值。此外,不应对各国的贫困率数值进行比较。尽管如此,我们认为这些序列数据很重要,经完善后可以被纳入《世界发展指标》。

6. 指标是依据好的、可靠的来源制作的吗?指标定期更新吗?

Selected WDI Partners

国际指标编制工作需要得到有效管理且可持续的数据收集和编制方法的支撑,这样序列指标才能逐步得以保持。这就是我们希望指标由成熟部门、机构和公司制定的原因所在。您可以在《世界发展指标》的前言部分找到全部合作伙伴清单。有时,有趣且相关的新指标可以借助创新性研究或其它活动加以制定,但我们必须对此类指标进行复审,以确保其编制工作继续采用完善的流程。有时,我们在试点基础上收录了一些新指标,但如果其制定工作无法继续,则我们就有可能将其移除。

7. 不具备具体性、可衡量性、可实现性、现实性以及时限性?

Screen Shot 2014-05-20 at 4.37.00 PM.png

您可能听说过SMART这一首字母缩写词。您可以在管理学教科书中看到它被用于帮助制定好的目标和指标。该词的五个字母分别代表五个英文单词:Specific(具体)、Measurable(可衡量)、Achievable(可实现)、Realistic(现实)、Time-bound(有时限)。构成该词的五个单词有时略有变化。就为《世界发展指标》选择指标而言,这些原则可能不太相关,因为我们并不需要制定目标。

但这些原则确能起到帮助作用。举例说,如果您在用某个指标衡量进展情况,则您需要弄清的一点是,您是否能够轻松诠释该指标的任何变化。如果该指标数值升高(或下降),您能判断情况是变好了还是变差了?就《世界发展指标》而言,比SMART原则更有用的是理解指标质量(因其与统计数据有关)含义的一般原则。

不少文件对这些一般原则进行了阐述,包括荷兰中央统计局编制的对照清单(请点击此处查看该清单)以及 《关于相关性、准确性、一致性、明确性、可比性、完整性、保密性、及时性、可获得性以及合理性的摘要阐述》。我们将尽力在《世界发展指标》中阐述统计数据质量的方方面面。

您对于我们可能纳入《世界发展报告2015》的指标有何建议吗?

 ---

本文中提到的指标:

以日均生活费1.25美元(购买力平价)计算的贫困率(占总人口%)

以国家贫困线计算的贫困率(占总人口%)

国内生产总值(现值美元)

五岁以下儿童死亡率(占每千名活产婴儿%)



《世界发展指标2014》中究竟有多少个指标呢? 整个数据库的 下载文档中包含336168行数据,每一行均代表某一特定国家、经济体或一组国家或经济体(共有252个国家、经济体或国家或经济体组合)的一个具体时间序列指标(共有1334个)。

作者

Neil Fantom

Manager, Development Data Group, World Bank

Tariq Khokhar

Global Data Editor & Senior Data Scientist

加入讨论

此字段内容保密,不会公开显示
留言字数: 1000