用户名
密码
(30天内有效)
注册
注册
首页 > 案例资料 >

【数据分享】第一个网格化的中国大陆经济活动数据集

我要收藏
2021-04-14

01  研究简介


对经济活动空间分布的研究是城市经济学、经济地理学、环境科学等领域重要的研究命题,也对政策制定起着举足轻重的影响。然而以往关于经济活动的数据,要么空间分辨率较粗,要么覆盖的时间范围有限,这些不足限制了我们对经济活动时空演化的认知。


为了克服上述问题,我们构建并共享了一个新的中国经济活动数据集:网格化企业数据集(gridded establishment dataset,GED),该数据集以 0.01° × 0.01° 为空间分辨率,绘制了 2005-2015 年在中国大陆注册的约 2550 万家企业的时空分布。高空间分辨率和长观测周期使得该数据集有较高的应用价值,我们可以用它来量化社会经济活动的时空格局、城市活力,该数据集还有助于我们理解产业和经济发展的基本规律。



02  背景


社会经济活动在地理空间分布上存在很大差异,这种差异是造成人口流动、产业转移、贫困等社会现象背后的重要原因。为了测量经济活动的地理分布,少数发达国家的统计部门会定期公布在一定空间尺度上聚合的数据。


例如,美国每年公布按邮政编码(zip code)或更粗范围的企业统计数据。瑞典统计局则编制了网格化的瑞典社会经济数据集,涵盖瑞典所有个人和企业。但是这类高质量的经济活动数据集在世界上绝大多数国家都很难获取(甚至是不存在)。


以中国为例,中国的社会经济数据主要来自统计年鉴,而统计年鉴只能提供城市或区县层面的汇总数据,无法用于分析城市/区县内部的社会经济活动。同时,由于不同地区的统计标准和口径不一致,各地区年鉴统计数据的可比性也成为一个问题。


近些年,研究人员开始利用“时空大数据”(如夜间灯光、卫星图像、街景图像、手机数据、社交媒体数据等)作为替代数据来测量社会经济活动。然而,“时空大数据”所覆盖的时间跨度往往非常有限,比如手机数据通常只覆盖几个月或一两年,我们很难利用这些数据追踪一个位置长时间的发展变化。


更重要的是,由于大数据存在潜在的系统性偏差,即便有了长期观测,构建一个稳定可靠的测量指标仍然是一个巨大的挑战(Google Flu 是个典型的例子,用户搜索行为的变化影响了模型的效果)。例如,不同网络平台的用户数量在动态变化,我们很难区分利用网络平台数据推算出的各城市的“人口”变化是由平台本身的用户变化引起的,还是由现实世界的人口变化引起的。


在所有“时空大数据”中,夜光数据是测量社会经济活动最常用的数据集。Nordhaus 等学者还基于夜光数据制作了全球经济分布数据集,产生了广泛的影响。夜光数据有观测周期长、全球覆盖、开放获取等优势,但它仍然存在明显的局限性。


首先,夜光主要反映的是夜间电力照明亮度,这不一定代表真实的社会经济活动。第二,由于饱和效应(saturation effect),夜光在城市内部很容易达到照度值上限,难以反映城市内部经济活动的变化。第三,对于每个位置,夜光只有一个亮度值,但两个亮度值相同的区域(如一个制造业园区和一个高新技术园区)的发展模式可能有很大差异,夜光数据无法捕捉这种异质性。


1618383882212379.jpg

图1:2015年新注册企业的空间分布。(a) 全国范围。(b)北京-天津。(c)珠三角。


在最近发表的一项工作中[1],我们利用约2550万条工商注册记录,构建了第一个网格化的中国大陆经济活动数据集(GED)。该数据集的一个重要优势是它同时提供了高空间分辨率(0.01°纬度×0.01°经度,在赤道处约为1.1 km×1.1 km)和长时间观测(2005-2015年,11年)。对于每个网格单元,除了每年注册的企业数量外,我们还进一步提供了这些企业的行业分类,有助于分析产业结构的变化。


为了验证数据集的有效性,我们分析了企业地址在坐标解析(geocoding)过程中的准确度,同时还在城市层面对比了 GED 和夜光数据与GDP、就业、财政收入等指标的相关性。结果表明,GED 能够有效地反映社会经济活动,并取得了比夜光更好的预测效果。除了用来量化社会经济活动的时空格局、产业发展、城市活力外,细粒度的企业数据还可以推进机器学习模型在城市研究中的应用。例如,GED 可以作为卫星/街景图像的标签,通过机器学习模型提取更多图像信息中的特征,来预测微观的社会经济活动。



03  方法


数据集的构建流程如图2所示,下面将简单介绍主要步骤,更详尽的内容可参见论文 [1]。


1618383913525705.png

图2:数据集构建方法


数据源与数据预处理

每家在中国大陆注册的企业都需要在当地的工商局登记,并提供一系列企业相关的信息,如名称、注册地址、经营范围等。注册成功后,这些信息会公布在国家企业信用信息公示系统上。现在也有许多第三方平台(如天眼查、企查查、爱企查等)提供企业信息查询服务,背后的数据也主要来源于国家企业信用信息公示系统。我们通过天眼查和国家企业信用信息公示系统,获取了八千余万条数据,在剔除个体工商户等记录后,剩余 2550 万条注册时间在 2005-2015 年之间的企业信息(数据预处理方法参见论文 [1])。图3a 展示了每年分产业类别的新增注册企业数量。


1618383934720953.png

图3:数据集统计性指标。(a)分产业类别的新增注册企业数量变化。(b)我们的数据集与国家工商总局公报数据的对比。


地址解析(geocoding)

地址解析是构建空间数据集的关键步骤。为了得到高质量的解析结果,我们需要事先从注册地址中提取所在的城市,这样可以把城市名称作为参数传到地图 API ,以保证检索的结果在该城市内。这一步操作可以有效降低地址文本中的歧义性问题。比如城市 A 和城市 B 都有一条“中山路”,如果不事先传入城市名称,则地图 API 返回的结果很可能没有匹配到正确的地址上。在提取城市名称过程中,我们还发现工商注册数据在城市字段存在不少缺失值,为了解决这个问题,我们采取了一系列办法,具体可参阅原始论文。


最后,我们使用高德地图的 API 接口完成了所有地址解析,将坐标转换为 WGS84 投影之后,进一步聚合到了 0.01° × 0.01° 的网格上。图1展示了2015年新注册企业的空间分布。从地图上看,我们的数据集清晰地展示了中国经济活动的地理格局:绝大部分经济活动集中在东部沿海地区,尤其是三大城市群——京津冀、长三角和珠三角。与夜光数据不同的是,我们的数据集不存在饱和效应,因此很容易刻画城市内部的差异(图1b,c)。


验证

为了验证数据集的有效性,我们分析了坐标解析的准确度,同时还在城市层面计算了企业数据和其它社会经济统计指标的相关性。


(1)对地址解析的验证。我们选择了北京、长沙、鞍山这三个人口规模差异较大的城市作为典型城市,使用两种方法来评估地址解析的准确性。第一种方法是根据高德 API返回结果的地理级别进行判断,地理级别越细,精度可能越高。如表1所示,最细一级匹配到的是街道号,其次是兴趣点(POI),凡是能匹配到这两个层级的地址一般都有较高准确度。我们发现,大城市在这两个层级上匹配的地址比中小城市多(北京88%,长沙77%,鞍山48%)。到村镇级别,这三个城市的地理编码准确率分别为96%、95%和84%。


表1:地址解析准确率,对三个代表性城市,我们各抽取了 10000 条地址记录做为判断基准

1618383958890322.png

第二种验证方法是使用地图返回的 "置信度指标"(confidence indicator)。高德地图没有提供这一指标,但考虑到高德和百度地图在中国提供类似的服务,因此我们以百度地图获得的 "置信度指标 "作为评价企业地址解析质量的基准。根据百度地图文档,地址解析置信度 ≥ 50是指地址解析绝对误差小于1000米(大约对应我们网格的尺度)。我们利用百度地图对这些采样地址重新进行地址解析,结果显示,三个城市坐标误差小于1000米的比例分别为93.1%、92.2%和74.1%,这意味着大城市的地址解析服务精度明显高于小城市。


(2)通过城市层面的社会经济统计指标进行交叉验证。为了进一步验证数据的有效性,我们从城市统计年鉴收集了 2015 年城市层面的 GDP、财政收入和就业人数这三个指标,并通过两个简单的回归模型来评估企业数据与它们的相关性。在模型1中,我们仅考虑每个城市的注册企业总数,在模型2中,我们进一步考虑了不同产业类别的注册企业数。为了与夜光数据进行比较,我们还收集了2015年的 VIIRS 夜光数据作为对比。


图4显示了两个模型的拟合结果。总体而言,企业数据和夜光数据在估计这些社会经济变量时都有良好的表现,R2均超过0.70。然而,在所有三个变量的回归中,企业数据的拟合效果均要优有夜光数据,特别是财政收入(0.817 vs. 0.710)和就业(0.761 vs. 0.708),将企业数据分解为三种产业类别后(即模型2),进一步提高了R2(图4a-c)。


1618383986184411.jpg

图4:用城市级的社会经济指标进行验证。(a-c) 企业数量与GDP、财政收入和就业之间的相关性。(d-f)与(a-c)类似,但用夜光数据代替了企业数据。



04  数据下载及使用说明


数据下载:

关注城市数据派微信号,在微信号中输入 “ 0402 ”,即可获得该数据的下载链接。


该链接下有四个数据文件,其中 GED_2005-2015_v2.csv 是网格化的企业数据,每一行代表一个网格在某一年的记录,具体字段说明见原论文表2。为了方便使用,我们还根据 2015 年的行政区划边界,将网格匹配了对应的区县、城市和省份信息。同时,我们也提供了 2005,2010,2015 这三年未聚合的原始数据,以方便更细粒度的研究工作使用。


参考文献:

[1] Dong, L., Yuan, X., Li, M., Ratti, C. & Liu, Y. A gridded establishment dataset as a proxy for economic activity in China. Sci Data 8, 5 (2021).

素材来源:S3-Lab


本文转载自微信公众号:城市数据派,如需转载请联系城市数据派。

本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞1