Syndicate content

大缺口与大数据

Aleem Walji's picture
版本: English
最近,我在美国科学促进会会议上就大数据与数据分析议题及其对社会经济发展如此重要的原因发表了演讲。 与发出大数据相关风险警告的其他演讲嘉宾不同——在未经人们同意情况下过多地了解并使用其信息,就会引发风险,我阐述了发展中国家的数据缺口和数据匮乏问题。 衡量贫困程度方面的挑战之所以有所不同,是因为如果没有数据的话,我们便无法知道在依靠共同的道德良知与这一问题做斗争方面是否取得进展。
 
例如,世界银行监测155个国家的贫困状况,但是,我们仅仅掌握了其中半数国家近期的贫困估算数据,而且这些估算数据已经是5年前的了。 对于提出未来15年消除极端贫困这一目标的机构来说,这是一大问题。 我们怎样才能知道何时实现这一目标?
 
正如从世行工作人员和在数据匮乏环境中工作的其他人了解的那样,来自各种新来源的高频数据和实时数据确实有用。我们可以使用数字信号来了解一个国家微观层面发生的情况,比如食品、药物和其它基本服务的分配情况,以便采取针对性的干预措施。例如,在手机普及率较高的地区,手机通话时间和预付款的地域分布可以实时表明收入波动情况以及发生这种情况的位置。同样,手机跨地域的活动可以揭示人口流动模式,这对于跟踪疾病(比如埃博拉病毒)的传播非常有用。 虽然这些数据并非完美无缺,但其往往是我们了解信息的最佳途径,也是全新的信息来源。
 
但是,除了数据动态之外,重要的一点是使数据服从假设,以确保我们的理论合理和“数据代用指标”可靠。在依据数据采取行动之前,我们需要进行理论检验。一大挑战在于N 并不等于全部。蒂姆•哈福德提醒我们,相关数据会具有误导性,而且常常是错误的。 在上面的几个例子中,我们在详细通话记录中观察到的模式与生活在某一特定地域的所有人无关,而是与持有电话的人相关。因此,我们需要认识到这些限制,并确认数据能够告诉我们什么以及不能告诉我们什么。
 
然后,存在的挑战便是数据噪声。正如纳特•西尔弗提醒我们的那样,大部分大数据只是噪声,而且这种噪声的增长速度比信号更快。他写道,“需要验证的假设如此之多,需要挖掘的数据集如此之多,但是,客观真理是一个相对不变的恒量。” 构思合理的问题总是很难,在对庞大的数据集进行剖析并探寻各数据集之间的实质性关联性情况下更为艰难。在最近发布的《大数据对发展的作用》报告中,世界银行集团与全球创新机构Second Muse合作,共同探索了大数据对社会经济发展的巨大潜力。该报告制订了关于发展领域应用大数据的概念框架。

大数据分析和数据科学是统计学、计算机科学和社会科学相结合的一个新兴领域。 前两门学科若缺少了第三门学科,则会导致得出虚假且常常危险的结论。 难以想象弱势群体因没有GPS智能手机而被排除在健康干预措施之外会是什么情况。 我们已经从谷歌发布的流感趋势得知,需要定期了解大数据集的真实状况,并进行严格审查。
 
作为供职于世行这一全球发展机构、负责处理大数据集的一名工作人员,我是实时数据力量的坚定信奉者。 但是,我们的分析必须得到可信假设和合理社会科学的支持。 重要的是清楚地明白数据能够告诉我们什么以及不能告诉我们什么。只有这样,我们才能将数据转化为知识,将信息转化为有助于行动的洞察力。
 
 
 
 

发表新评论

Plain text

  • Allowed HTML tags: <br> <p>
  • 自动断行和分段。