复旦大学郑磊教授:我们需要开放有“温度”的数据
编者按:本文来自微信公众号“腾云”(ID:tenyun700),作者:郑磊(复旦大学数字与移动治理实验室主任,国际关系与公共事务学院教授),36氪经授权发布。
“如何在保证足够开放的同时,又不伤害到个体,这是一门艺术,这个火候要把握得准。”
自2009年,随着《透明和开放的政府》、《开放政府令》、《电子化政府执行策略》等一系列政策法规的出台,美国成为全球首个推广开放政府数据的国家,并在全球范围内掀起了一波开放政府数据的浪潮。
我国紧随其后。2012年,上海市政府数据服务网上线,成为全国首个公共数据开放平台,北京、湛江、无锡等地也逐步开始建设自己的开放网站。
如果你对政府数据开放还感到陌生,那不妨先向你举一个例子。
新冠疫情期间,你一定浏览过各大互联网平台发布的疫情地图,这些制作精美、数据及时更新的地图,其底层数据来源,其实正是各省市卫计委发布或开放的疫情数据。这些来自政府的数据,在经过企业、社会机构的加工后,借助平台的力量,以可视化的方式传递到广大用户手中,让人们能够在第一时间读懂疫情发展的最新状况。
因此,虽然我们将这一概念称作“政府数据开放”,但与之相关的绝不只有政府。
在数据已经成为新的生产要素的时代里,政府数据开放是整个社会数据流通必不可少的一环,与企业、公众密切相关,也直接决定了“新基建”等地基的稳固与否。而另一方面,与商业数据的流通、交易相似,政府数据开放同样面临着个人隐私保护与数据开放之间的矛盾与平衡问题,如何“把握火候”至关重要。
复旦大学数字与移动治理实验室主任、国际关系与公共事务学院教授郑磊教授从10年前就开始关注相关领域研究,见证了中国政府数据开放从萌芽、快速发展到在某些方面已处于国际先进水平的不同阶段。他的团队每年定期发布“中国开放数林指数”,反映我国政府数据开放生态体系,为未来提供指引。
今年7月22日发布的“2020中国开放数林指数”和《2020中国地方政府数据开放报告》指出,截至2020年4月底,我国已有130个省级、副省级和地级政府上线了数据开放平台,其中省级平台17个,副省级和地级平台113个。与2019年下半年相比,新增1个省级平台和27个地级(含副省级)平台。
我国地方政府数据开放平台上线情况。图表来源:中国地方政府数据开放报告(2020年上半年)
《报告》也指出,我国54.83%的省级行政区(不包括港澳台)、73.33%的副省级和32.08%的地级行政区已推出了政府数据开放平台。
从2017年的20个,到2018年的56个,到2019年的102个,再到2020上半年的130个,这意味着政府数据开放平台日渐成为地方数字政府建设和公共数据治理的标配。
各地平台上线时间的地理空间分布(省级)。图表来源:中国地方政府数据开放报告(2020年上半年)
随着政府数据开放水平的快速提升,以及社会整体数字化水平的进步,“开放数林”指数的评判标准也一直在“进化”。用郑磊教授的话说,这份报告要比实际发展水平“快半步”,如此才能起到指引作用。
关于政府数据开放,以及如何开放“有温度的数据”,腾云独家采访了郑磊教授,请他分享了他的思考。
腾云:您是从什么时候开始关注数据开放领域研究的?
▌郑磊:我在读博期间就看到过相关的国外论文和理论文献,开始关注各国动态,但真正开始在国内开展这方面的实证研究大概是在2012年。2012年,我国在上海推出了第一个地方政府数据开放平台,我也有机会把上海作为第一个案例进行研究。随后,全国上线的平台越来越多,到现在全国已经有130多个平台了。
腾云:政府数据开放对我们普通人的生活有什么影响?
▌郑磊:首先要明确的一点是,政府开放数据和我们传统认知中的政府信息公开是有区别的。
第一个差别是开放数据要把数据开放到底层的、原始的数据,而传统的政府信息公开可以只公开经过加工和分析的信息,甚至是一些文件。第二个区别是政府信息公开主要的目的是保障公众的知情权,而开放数据的主要目的是推动政府数据的再利用。由于政府在履行行政职责的过程中采集了大量的数据,这些数据原来都放在政府的后台只能自己用,而现在这些数据不仅政府自己可以用,也要开放给社会来进行开发利用,推动大数据时代的到来。
所以开放政府数据就是要促进公众对政府数据的利用,让社会机构、企业来用,把数据开发成应用,或进行可视化呈现,最终服务于普通的公众。
数据开放涉及到三方,第一是开放数据的提供者,第二是数据的利用者,第三是受益者或被服务者,也就是普通的老百姓。例如,新冠疫情期间,老百姓可以从各大平台包括腾讯看点获取关于疫情的最新数据,了解自己所在区域的疫情状况,这都是政府开放数据后被企业加以利用的结果,而公众是数据开放的最终获益者。
腾讯新闻推出的“新型冠状病毒肺炎疫情实时追踪”,这是截至2020年11月6日的新冠肺炎“现有确诊”地图。
腾云:政府数据开放和企业数据的使用流通有哪些不一样?
▌郑磊:政府采集数据的主要目的是为管理社会服务、为公共利益服务,因此政府数据不仅政府自己可以拿来用,在保障国家秘密、商业秘密和个人隐私的前提下,也应该开放给社会,让企业和社会对这些数据进行分析利用,释放这些数据的价值。
从公共价值的视角来说,政府开放数据是为了发挥政府数据更大的社会和经济价值。比如智慧城市建设,政府开放的数据提供了一种新的要素,可以推动数字经济、数字社会的发展,带动城市发展。政府数据更像是一种城市的数字基础设施,类似政府建的马路、高速、水电煤这种物理的基础设施一样,能够让整个城市和社会在数字的基础设施上发展。
另外需要强调的是,商业数据是可以通过数据交易所进行交易的,A公司卖给B公司,B公司再卖给C公司,但政府数据开放原则上是不能交易的,因为它是公益性质的,它是政府通过公共财政的钱采集的,老百姓已经通过纳税付过钱了。理论上说,这些数据已经是公共资产,也就是全社会资源了,不可以再向公众收费。
腾云:那么在政府开放数据的过程中,企业能扮演什么样的角色?
▌郑磊:企业现在能做的主要是两件事情,一个是在数据开放前,主动提出数据需求,与政府数据的提供部门对接沟通;第二就是在数据开放后,把数据利用好,发挥出数据的社会和经济价值。
政府在开放数据的过程中,很多时候并不知道社会到底需要什么数据,所以供需双方的沟通就变得非常重要。数据开放其实是一个供需双方的问题,供应方是政府,需求方是企业与社会,也包括个人、研究机构等。政府首先需要知道大家的数据需求,然后才能根据需求来判断这些数据是否可以开放,以及在开放过程中有哪些需要注意的问题和需要防范的风险。
在数据开放出来以后,企业就要把数据用好,真正创造价值、服务于公众,这样政府就会对开放数据更有信心,也就愿意开放更多更好的数据,最终形成一个良性的闭环、正向的循环。
另一方面,当滥用数据的技术越来越强大,我们“防”的技术也要跟上。政府对于那些在不危及个人隐私和数据安全的前提下,能很好地利用数据的新技术新方法有很强的需求。所以,我们的防御能力要跟上,当然也要把握好度,防过头了便也无法释放数据的价值。
总的来说,为了促成供需之间有价值、可持续的合作,一是我们要通过立法来保障数据安全,二是要建立有效的管理机制,三是要通过技术的不断进步来保证数据流通的安全高效。政策、管理和技术三者都不可或缺。
腾云:疫情之下,整个社会的数字化水平得到了长远提升,政府数据开放水平有较大进步吗?具体体现在哪里?
▌郑磊:疫情下的数据开放有很大的进步。比如有很多地方把疫情数据以可机读数据集的形式在平台上直接开放,数据利用者下载后就可以直接利用,非常方便。以往,社会机构在把政府数据制作成更容易让受众使用的形式时,往往要在采集和整理数据上花费大量时间。这些问题在这次疫情数据的开放上都有了明显进步。
另一方面,我们也发现,开放数据的质量、种类、格式标准等仍有很大的提升空间。我经常做的比喻就是“巧妇难为无米或者坏米之炊”。社会上的数据利用者更多的是“巧妇”的角色,现在“米”已经有了,但这个“米”还可以更多更好。
整体来说,和其他许多行业一样,疫情“倒逼”了数字化发展,也对开放数据的水平提出了更高的要求。
这也是我们为什么连续三年发布《中国地方政府开放数据指数》的原因,就是希望以此给地方政府一个参照系,同时提供一些建议和方向,今年的报告中,我们也已经将各地疫情期间的数据开放情况包含进去了。
毕竟数据开放还是一件比较新的事,大家对于具体应该怎么做还不是特别清楚,所以我们可以通过评估和一些具体的指标要求来助力引导。
腾云:那我们来聊聊这份报告吧,为什么报告中用了“数林”进行命名?
▌郑磊:树林是一种生态的比喻,我们用它来形容中国的政府数据开放生态体系。整个国家的开放数据就像一个数据森林,每一个地方就是一棵树木,当每一棵地方的树木都成长了,这些树木再枝杈相连、根系相通,就会形成一个全国的数据开放的森林。所以我们这个指数就叫“开放数林指数”,通过观察哪里的数木长得更高、更粗、哪里的数叶更茂密,来判断这个地方的开放数林的发展水平。
对于一个生态体系来说,绝不是只靠某一方就能做成的,还要靠整个生态系统中的各方的共同努力。用树林来做比喻就会很形象,法律规范、组织机制等就像这棵树的“数根”;基础之上就是“数干”,那就是平台;而数干之上又有数叶,数叶就是数据;最后,数据开放还要有结果。
腾云:随着各地数据开放水平的提升,这个报告的评判标准发生了哪些变化?
▌郑磊:从前两年开始,我们的指标就不再强调数据开放的数量,而更加重视数据的质量,而且要求也在一步步提升。我们每年都会专门邀请该领域的专家讨论,根据当年的情况再对评估指标进行调整。
总体来说,我们的指数肯定还会不断提高要求和标准,这样才能起到不断的引导作用。我们的指标要做到比现在各地的实际发展水平“领先半步”,既不能太高也不能太低,使各地能够“跳一跳够得着”,否则就不能真正发挥指引发展的作用了。
当然,评估指标的制定不是“拍脑袋”就能决定的,这个指标体系的设计是以数据利用者和普通公众的视角为基本出发点的,从需求出发、从问题出发,把人作为出发点和落脚点。
2020中国开放数林指数评估指标体系
腾云:这个变化放在今年,具体体现在哪里?
今年评估指标体系的重点,是从基础准备进一步向实际成效倾斜。因为我国地方政府数据开放已经发展到了一个更成熟的阶段,不能再只看一个地方的“准备”情况了,而要更多看到底带来了哪些成果。
另外,今年的评估指标体系中还新增了“平台互联互通”和“包容性功能”指标。之所以要强调互联互通,是因为平台之间不是孤立的,才能进一步促成各个地方平台的互联互通,才能构建出一个森林。
而包容性指的更多是考虑到一些弱势群体,比如老年人、残障人士等,让他们也能享受到数据开放的红利。我们不能仅针对强者,还要对一些数据利用能力比较弱的人提供帮助,让数据开放的受惠面更广。
腾云:无论是企业数据还是政府数据,当我们谈到与数据流通有关的话题时,一个无法回避的话题就是个人隐私的问题。您如何看待这个问题?
▌郑磊:数据的开放利用和保护之间要找到平衡点,这个平衡点就是我们所提倡的“温度”,我们需要数据,更需要有温度的数据。对于数据的流动,我们不能一味图快,而忘记它的风险,我们还是要走得稳、走得安全。
比如当健康码要“进化”成文明码的时候,马上就引起了公众争议;再比如最近大家热议的外卖骑手和算法的问题,也引发了全民对算法公平的讨论。因此,数字化时代要充分考虑到技术利弊两面,不仅是隐私保护问题,还有算法公平和透明等问题。这是这个时代非常重要的问题。
腾云:说到底还是技术和人的关系问题。
▌郑磊:对。我们前些年考虑的更多是我们的数字化程度还不够高,要快速赶上数字时代、实现数字化转型。但从去年以来,我们已经开始更多地强调“温度”的概念,我们不只要追求速度,更要追求有温度的发展。
人工智能时代,我认为,人与技术的关系、人的尊严、人的劳动权利等问题,在接下来的几年里会受到越来越多的关注。
所以只有在评价维度中加入带有“温度”的指标,我们才能够赋予技术以人性化,让人有感受度、有获得感。当我们用温度这一标准来评测数据的时候,我们便会追问,如此开放和使用数据,会“烫手”吗?它的“温度”是合适的吗?这能让我们更好的理解,技术的落脚点还是要以人为本。
还是以这次疫情为例。疫情期间,很多地方都会公布病例的信息,但这些公开的患者信息是要经过脱敏的,它既要让公众对于疫情的发展有充分的知情,又不能让公众识别出具体的某个人,进而侵犯个人隐私、引发针对个人的歧视,这就要体现出对“度”的把握。
如何在保证足够开放的同时,又不伤害到个体,这是一门艺术,这个火候要把握得准。如果数据的“温度”太低,那么冰冷的数据便无法用来产生能量。如果“数据”的温度太高,它又会“烫伤”人了。所以我们需要一个让人感到最舒服的温度。
腾云:与国外相比,我国数据开放有什么特点?
▌郑磊:这两年我们的进步很大,不断接近国际水平。我们现在有些地方的平台做得很好,比如说像上海、浙江、深圳、贵阳这些地方跟国际上的差距已经越来越小了,甚至在某些单项指标上,我们可以说是达到了国际一流水平。目前国家级平台还没有上线,一旦上线后,便能进一步弥合我国和国际上的差距。
在发展过程中,各地也在不断进行一些因地制宜的、符合中国国情的探索。比如,在“受限开放”或者说“有条件开放”的探索上,我们在国际上是比较独特的。也就是说,我们在完全开放跟绝对不能开放之间找到了一个中间地带,通过签订协议对数据的使用过程进行一些约束。