这个平台只需单击几下,便可提取、查询和可视化全球人口流量!
本文英文原文为《ODT Flow Explorer: Extract, Query, and Visualize Human Mobility》,如需获取英文原文PDF,请关注城市数据派微信号,在微信号中输入“ 0105 ”,即可获得下载地址。感谢作者授权城市数据派翻译原文,以下内容经原文作者审核。摘 要了解不同地点之间的人口流动动力学可提供有关其交互重力的基础知识,从而有益于需要人类空间交互中的先验知识的广泛应用。正在进行中的COVID-19大流行独特地凸显了对监控和精细化地测量人类空间相互作用的需求。为了应对大流行病中对人口流动性数据需求的激增,我们开发了一个交互式地理空间门户网站,从数十亿个带有地理标签的推文中提取了全球每日人口流量,并从SafeGraph流动性数据中提取了美国人口流量。该门户网站名为ODT(起点-目的地-时间)Flow Explorer。该 Flow Explorer 是ODT数据立方体和大数据计算集群,可有效管理、查询,并在不同的时空尺度上聚集数十亿的OD流量。尽管该工具仍处于早期发展阶段,但快速生成的移动性流数据可惠及需要及时获取细粒度人类移动性记录的大量领域。可以通过http://gis.cas.sc.edu/GeoAnalytics/od.html 访问 ODT Flow Explorer。关键词:人口流动、社交媒体、推特、SafeGraph、大数据作 者Zhenlong Li1*, Xiao Huang2, Xinyue Ye3, Xiaoming Li41 Geoinformation and Big Data Research Lab, Department of Geography, University of South Carolina, Columbia, SC, USA2 Department of Geosciences, University of Arkansas, Fayetteville, AR, USA3 Department of Landscape Architecture &Urban Planning, Texas A&M University, TX, USA4 Department of Health Promotion, Education, and Behavior, University of South Carolina, Columbia, SC, USA*Email: zhenlong@sc.edu1 引 言诸如COVID-19之类传染病传播的预测和控制,很大程度上得益于日益增长的量化精细尺度人口流动的计算能力(Hancock等,2014;Kraemer等,2020)。针对COVID-19流行病期间人口流动数据需求的激增,我们从数十亿个带有地理标签的推文和SafeGraph数据中提取了全球每日人口流量,并开发了一个交互式地理空间Web门户,称为ODT(Origin-Destination-Time)Flow Explorer(http://gis.cas.sc.edu/GeoAnalytics/od.html,如图1所示),允许研究人员查询,汇总,可视化和下载不同地理尺度的每日人口流动数据。本文简要说明了如何从Twitter和SafeGraph中提取人口流动数据,展示了ODT Flow Explorer如何用于查询、可视化和下载人口流动数据,并讨论了各数据集的局限性。图 1 ODT Flow Explorer的用户界面 (v0.66)2 提取人口流动数据我们使用Twitter公共API收集的全球地理标记推文数据( https://developer.twitter.com/en/docs/twitter-api )和SafeGraph提供的基于美国移动设备的社交距离度量数据( https://docs.safegraph.com/docs/social-distancing-metrics ),以OD流的形式导出了人口流动数据。2.1 从地理标记推文中提取每日OD流从带有地理标签的推文中获取每日OD流是Twitter用户的单日轨迹和跨日轨迹的组合。黄等人介绍了单日轨迹和跨日轨迹的概念(2020)。通常来讲,单日轨迹代表用户相对于初始位置的每日最大移动距离,而跨日轨迹则衡量连续两天平均中心的偏移量。继马丁等(2020),我们检查了Tweet中推文的来源,删除了非人工发布的推文(机器人发布的推文,例如天气报告和工作机会)。例如,从TweetMyJOBS中自动发布的职位招聘推文。我们还剔除了地理标签中空间分辨率比城市级别粗的推文。经过数据清洗之后,我们从2019年1月1日至2020年10月31日获得了21亿(2,148,780,155)条带有地理标记的推文,这些推文由2100万(21,777,336)位Twitter用户发布。遵循单日和跨日方法,我们进一步提取了覆盖全球的超过5.91亿(591,417,926)个用户级别的每日OD流。使用Apache Hive(https://hive.apache.org)并结合Esri Hadoop的Esri GIS工具(http://esri.github.io/gis-tools-for-hadoop)在Hadoop计算环境上执行该过程。必须指出Twitter衍生的OD流没有考虑用户的家居位置。这些流是从Twitter用户级别上经过地理标记的推文直接得出的位置。2.2 从SafeGraph提取每日OD流数据我们从SafeGraph下载社会距离指标(SDM)数据来提取美国的每日OD流。SDM表中有23个字段,我们使用其中的3个字段来表示人口流动,包括origin_census_block_group,destination_cbgs和date_range_start。origin_census_block_group是人口普查组织特有的12位FIPS码。destination_cbgs包含一个键值对列表,其中的键指的是目的地人口普查小组(来自源地人口普查小组),值是在该时间段内在给定的目的地普查小组中停留超过1分钟的设备数量(https://docs.safegraph.com/docs/social-distancing-metrics)。date_range_start用于提取时间信息。基于这三个字段,生成了OD表,每一行代表特定日期从源地块组到目的地块组的设备数。新的OD表包含2019年超过60亿(6,144,802,397)个区块组级别的每日OD流,以及2020年(更新至9月30日)的超过37亿(3,770,910,837)每日OD流。该过程在Apache Hive环境中执行(文档末尾提供了用于生成OD表的HiveQL)。必须指出,源自SafeGraph的OD流考虑用户的家居位置。例如,从A地到B地的100台设备(用户)的流代表其家居位置在A地。2.3 汇总不同地理尺度的每日OD流我们还将数十亿的每日OD流(全球用户级别的Twitter派生流和美国人口普查小组级别的SafeGraph派生流)整合到各自对应的地理尺度,包括国家(仅Twitter),全球一级地区细分(仅限Twitter),美国各州(Twitter和SafeGraph),美国各郡(Twitter和SafeGraph)和美国人口普查区域(SafeGraph)。该工具中提供了空间汇总的每日OD流,以供用户浏览和下载。3 起点-目的地-时间(ODT)数据立方体为了有效地管理、查询和汇总数十亿个不同时空尺度上的OD流,我们开发了Origin-Destination-Time数据立方体(ODT数据立方体)作为ODT Flow Explorer的概念数据模型(图2)。在ODT数据立方体中,起点(O)和终点(D)是可以与地图一起显示的一组地点或位置(例如行政边界,例如郡,州,地区或格网)。数据立方体中的每个单元格都有一个值,该值代表在特定时间段(例如一小时,一天或一个月)内从起点到目的地的流。可以从ODT数据立方体中得出三种类型的矩阵:起点-目的地(OD)矩阵可以量化一段时间内所有起点和目的地位置之间的总体流。目的地-时间(DT)矩阵记录了一系列时间中从特定的原始位置到所有目标位置的输入流的数量。类似地,起点-时间(OT)矩阵记录一系列时间中从所有起点到特定目的地的输出流的数量。ODT Flow Explorer旨在为ODT数据立方体提供即时查询、切片、整合和可视化的交互式界面。在高性能计算集群的支持下,查询通常不到15秒。图 2 大OD数据查询分析的起点-目的地-时间立方体示意4 实 例通过ODT Flow Explorer,研究人员只需单击几下,便可在各地理尺度下整合的每日人口流。Explorer的大多数组件和按钮功能是不需要专门解释的(当然也提供工具帮助)。以下是使用此工具的一般步骤:(1)首先,用户需要选择他们感兴趣的轨迹数据集。当前,可用的选择是Twitter派生流和SafeGraph派生流。(2)从以下列表中选择一个地理级别:美国郡(适用于Twitter和SafeGraph),美国州(适用于Twitter和SafeGraph),全球国家/地区(适用于Twitter)。未来将考虑添加美国人口普查区域的数据(SafeGraph)和来自Twitter的各个国家数据;(3)下一步是选择时间段。当前,仅包括2019年和2020年的数据。Twitter派生的人口流动数据更新到了2020年10月31日,而SafeGraph派生的人口流动数据更新到2020年9月30日;(4)一旦选择了数据集,地理级别和时间段,用户就可以选择对所选数据(ODT数据立方体的子集)进行处理。共有四个选项(自0.6版开始):“地区分布图”,“流图”,“每日跨地理单元移动”和“下载”。当用户选择地区分布图选项,可在地图上单击来选择一个地理单元(例如郡或州),然后显示该地理单元与其他地理单元之间的汇总流情况,还可以配置流向(流入、流出、流入与流出)。流入是指在选定的时间段内,从其他单元移至选定单元的用户/设备数;流出是指从选定单元移动到其他单元的用户/设备的数量;流入和流出包含双向流动。左图3显示了自2020年8月8日到2020年3月14日从SafeGraph获得的人口流向纽约(曼哈顿)的情况。右图显示了下周(2020/03/15至2020/03/21)流向纽约的人口流情况。图 3 图4左图显示了2020年1月1日从南卡罗来纳州进出南加州的人口流,右图显示国家级别的人口流动情况。图 4 对于“流图”选项,用户将基于所选数据集,地理级别和时间段直接在地图上绘制起点-目的地之间的流线。用户可通过在地图上绘制边界框或使用数据的完整空间覆盖范围来选择感兴趣的区域(AOI),还可以配置流向(流入、流出、流入与流出)和流的颜色。每个流基于显示的设备/用户移动的数量进行加权。图5分别显示了基于Twitter(左图)和SafeGraph(右图)的从2020/01/01/到2020/01/05/的郡级别的人口流动情况。必须指出,对于SafeGraph派生流数据,只能对所选时间段内聚合设备数量大于20的流进行可视化管理。故将在更高版本中集成支持WebGL的映射组件(例如kepler.gl)来克服此限制。图 5对于“每日跨地理单元移动”选项,将计算选定地理单元(例如郡或国家)和年份的每日移动次数,并将其作为时间序列图显示。通过查询起点-时间(OT)矩阵和目的地-时间(DT)矩阵来执行该操作。方向选项有四个选择:“流入”,“流出”,“流入与流出”和“内部流”。流入量是指从其他所有单元转移到所选单元的每日用户/设备数。流出是指每天从选定单元迁移到其他所有单元的用户/设备数。输入和输出包含每日双向流动。内流是指所选单位内的每日移动次数(移动距离大于零但未越过单元边界的流)。图6显示了从2020/01/01到2020/09/30/(基于SafeGraph得出的OD数据)在美国纽约和洛杉矶的每日流出量。图7显示了法国,西班牙和阿根廷从2019年1月1日至2020年10月31日的每日流出量(基于Twitter的OD数据)。从不同地理级别的图表可以很好地反映出COVID-19对人口流动的影响。图 6图 7图8显示了基于Twitter派生数据,日本从2020/01/01/到2020/10/31/的内流流动情况(左图)和每日流入/流出情况(右图)。内流流动揭示了该国在应对流行病时的人员流动动态情况。另一方面,流入与流出的流情况显示,日本的国际旅行在2020年3月上旬开始减少,此后一直保持在较低水平。图 8最后,用户可以通过选择感兴趣的数据集,地理级别,地理区域,时间段和聚合类型以CSV(逗号分隔值)文件的形式来下载流动性数据,用于进一步分析或与预测模型集成。图9显示为选定区域提取并下载了超过270万个郡级的每日流量(来自bbox)。CSV文件中的每一行都包含源地(o_fips),目的地(d_fips),日期(年,月,日),从源地到目的地的设备/用户数(cnt),以及所有流来源的平均中心( o_lat,o_lon)和流目的地(d_lat,d_lon)。如果选择了“聚合”选项,则数据文件将作为流动性矩阵形式,其包含选定时间段内从源地到目的地的设备/用户的总数。图 95 数据的局限性从Twitter获取的人口流动数据:Twitter数据具有内在的局限性,许多研究者(例如Li 2013; Malik 2015; Jiang 2019)针对该问题进行了研究。Twitter并未按比例分配给不同的人口群体,因此具有人口统计和社会经济偏差。此外,从免费的公共Twitter API收集的经过地理标记的推文较少(约占整个Twitter流的1%),不足以获取人口较少地区每天的人口流动模式。在推导郡级每日人口流量时尤为显著,因为仅当Twitter用户一天至少发布两条推文或至少连续两天发布推文时,才被包含在人口流动计算中。另一个局限性是人们的Twitting活动的动态(例如,人们在大型活动中往往会发更多推文),以及Twitter内部API的更改会影响每天收集的推文数量。在对Twitter获取的流数据进行研究时,解释结果和得出结论时应考虑这些局限性。从SafeGraph获取的人口流动数据:SafeGraph数据具有很高的渗透率(约占美国的10%),很好地代表美国人口群体。因此,从SafeGraph获取的流数据比从Twitter的更有代表性,克服了Twitter数据的局限性。与Twitter获取数据相比,SafeGraph获取的流数据的一个缺点是,该数据在美国免费使用仅可追溯至2019年。通过对ODT Flow Explorer中的两个流动性数据集进行直观的探索和比较,本工作突出了共享和融合多个数据源对于人口流动研究的重要性和必要性。6 展 望ODTFlow Explore仍处于早期阶段。下一步,我们将添加针对其他地理级别汇总的流动性数据,包括美国人口普查Census Tract区(SafeGraph)和全球一级地区(Twitter)。当新数据(Twitter和SafeGraph)可用时,我们还将定期更新流动数据集。从功能角度来看,我们计划向系统添加WebGL支持(例如kepler.gl),以便它可以更有效地实现处理大型数据集可视化。当前,流可视化功能还处于初级阶段,当从查询返回大量记录时,流可视化功能是很慢的。本文转载自微信公众号:城市数据派,如需转载请联系城市数据派。