Syndicate content

大数据正如幽灵般困扰着当今世界,但数据革命已经启动了吗?

Prasanna Lal Das's picture

随着业余黑客和机读技术成为数据分析的核心组成部分,数据供求格局的变化正在重组特权知识阶层。传统型专家可能希望数据格局逐渐演变,但一项由私营部门从业人员主导的数据革命可能已同时启动。Prasanna Lal Das认为,相关合作机制应吸纳这些从业人员,因为对他们而言,数据革命已然成为一个活生生的事实

当前并非首个革命年代其力度在一些时期要大于另一些时期。同样,传统上由知名人士和“专家”把控的数据领域也在变化。这种情况甚至有可能点燃至少部分革命热情,由知名人士组成的高级专家组就后2015年发展议程撰写的报告呼吁实行“数据革命”以便“为问责和决策目的加强数据和统计工作”以来尤为如此。但是,官方数据革命进程缓慢,这有时会使人心存疑问:这一革命是否会成为官僚自身、由其开展且为其服务的一场革命,或者是否会成为真正改变我们评估当今世界的方法、评估内容以及评估人员构成的一场革命。

该报告介绍说,这场革命处于相当高的水平;报告发布以来,有关方面为确定这场革命可能包括的内容以及新趋势(具有向公民赋权潜力的细分、众包、新技术以及更好的联络性等趋势)如何构成该革命的架构开展了大量工作。具有相当必然性的一点是,至少有部分讨论重点围绕众所周知(但仍具重要性)的议题开展,如加强能力建设、更多地发挥国家统计局的核心作用、提升数据收集工作的标准化水平、加强伙伴合作以及为数据收集分析机构提供更多资源等等。但正如该报告所承认的一点,在阴影下潜藏着大数据这一幽灵以及新的数据收集分析方法。这表明,数据领域可能已经在进行着一场革命,一些人们珍视的真理可能不再适用。

最近,我出席了两场会议,其中一场由互联网数据网络(Webdatanet )主办,另一场由联合国欧洲经济委员会主办。与会代表对数据革命(有些代表表示革命尚未开始,有些则表示革命已在进行)进行了热烈讨论。与会代表均为数据界的权威专家。表面上看,两场会议均很平静,但实际上却被众多疑问搅乱了。

机器已经接管了相关工作了吗?
目前,全世界大部分数据(90%以上?)来自机器 (传感器、手机、卫星、照相机、无人机以及扫描仪等等),这种不平衡有可能继续拉大(即便在社会科学领域也是如此)。很显然,在实地对人们进行访谈且认真记录观测结果的研究人员仍可发挥一定作用,但他们收集的数据与机器收集的数据相比显得相形见绌了。谈及机器可能会令人恐慌,但它们能够记录来自战区、无人区、远近地区的数据、可见和不可见数据以及人们谈及和未谈及的数据,而且它们还能够反复且在不可预见的情况下收集这些数据(遗憾的是,尚未有博客文章谈及机器像人类一样进行的难以置信的冒险经历!)。此外,机器通常能够更好地分析数据并揭示数据的含义,甚至还能够在数据变化情况下自行修正和适应。“次级经济”有可能即将对数据学家造成影响,也有可能不会对其造成影响,但我个人认为,如果在考虑数据的方方面面过程中,数据革命不提出“机器能够胜任吗”这一问题,则其有可能错失了革命机遇。

业外人士参与进来了吗?(难道不需要专家来处理数据吗?
还记得记者们因博客文章作者和社会媒体人不遵循业内专家几十年来通过辛勤努力形成的新闻工作规范和文风规范而对其加以责骂的时期吗,或专业视频制作人士嘲笑YouTube网站的时期吗?如今,相同的粗鲁言行已集中针对数据活动——自行收集、发布、分析数据并使其可视化、与数据领域从业人员、政策专家、学术界以及公民社会分享其工作成果。使得这些业余数据“黑客”具有影响力的原因在于其熟悉相关内容,能够就数据提出准确问题,也能够有的放矢地收集、处理数据。对这些人而言,数据仅仅是一种手段而非结果;他们瞬间拥有了可供其选用的大量数据工具,而这些工具几乎实现了许多传统数据技能的商品化或民主化。在此,我一点儿也没有表达这些业余黑客能够取代数据科学教和专家之意,因为后者在很多情况下仍是不可或缺的,但前者的工作确实提出了如下问题:真正的革命是否应该源于基层?新的黑客是否是真正的数据革命者?

传统的数据联盟正在失去地盘吗?
关于数据革命的讨论基本由传统势力主导(尽管这一说法自相矛盾!)。这些势力主要是肩负收集、管理并发布必要数据职责的官方机构、知名智库以及高等院校等实体(虽然它们为吸纳新的主体付出了协同努力)。当然您可以认为,虽然我目前没有相关数字,但这些实体掌握的数据占整个数据系统的比重近来持续下滑(主要原因在于新的数据源引发的数据暴增)。数据构成也已发生了变化——大部分“现代”数据源并非传统数据源(如上文提及的机器、社会媒体、并行数据以及商业交易数据等等),同时很多官方机构尚未建立收集和管理此类数据所需的技能(虽然有些机构正在为此付诸努力)。因此,人们势必要问:数据革命是否已经把此类机构落在了后面或者它们是否仍有机会收复失去的地盘?我想说的是,官方机构仍很重要,但一些传统的合作机制可吸纳一些新面孔。

我们对数据的所有认知都错了吗?
我想说明的一点是,经常就数据确立情况提出有争议问题的并不是新的数据方法,而是这些方法的实践者。这些问题包括:理论和模型僵化了吗?试用某种原始方法试用某种原始方法是否更适合于数据贫乏的世界而非当今数据丰富的世界?我们所热衷的数字,即诸如国内生产总值、通胀率、就业率、贸易差额等所谓的主要指标,在当今世界是否毫无用处?传统数据是否太慢、太麻烦而且太昂贵,因而无法在决策密集型环境中发挥作用?数据的准确性是否真的像我们认为的那样重要(数据是否非常准确过吗)或我们是否应该接受“杂乱无章的”数据并将其作为新规范?对诸如此类问题的回答有时往往是下意识的或拒绝性的(这种情况更糟),但如果真正开展一场革命,我们也许就有理由扔掉一些老旧规则手册并保持开放的思维

数据革命的价值何在?
我们为何要开展一场数据革命?目前,至少有一些围绕数据革命的讨论以诸如数据缺口和质量、更完备的文献记录、数据技术基础设施、数据可用性和公开性以及大数据面临的挑战等“供应侧”议题为重点。关于数据需求的讨论则以“实证资料”、“问责性”以及“决策”等议题为核心,但“官方”数据革命者是否能比私营部门更好地填补这一缺口?官方机构能比“市场”作出更好回答的问题有哪些?它们能否通过更准确地预测农业产量来帮助农民?它们能否更好地预测疾病爆发?它们能否帮助企业作出更有效的投资决策?它们能否帮助确保援助流向目标人群并取得预期成果?如果回答是肯定的,则意味着已开展了一场革命。私营部门已对这些问题作出了回答,气候公司Metabiota公司(与美国政府及医疗卫生机构合作追踪疾病暴发的一家公司)所开展的工作便是例证。这两家公司以及与其类似的其它公司正在帮助企业建立数据方面的能力,而在其之前,保险公司就是这么做的。对这些公司而言,数据革命已然成为一个活生生的事实。

主管数据革命的团体希望有序过渡,即按照当今的规则改变秩序,或把逐步演变放大为一场革命。在发展领域之外,一场并行革命可能已经在进行。

-----------------------------

本博文原刊登于伦敦经济学院社会科学影响博客.

-----------------------------

世界银行集团公开财务网站在线提供国际复兴开发银行、国际开发协会和国际金融公司的公开财务数据。该网站主要提供贷款、合同、信托基金、投资和财务报表等方面的数据集。更便于您就以九种语言呈现的业务和财务数据进行“对话”的移动应用程序Google StoreiTunes Store下载。请通过Twitter关注我们的动态,参与并持续关注关于世界银行公开财务数据的讨论。

发表新评论