用户名
密码
(30天内有效)
注册
注册
首页 > 案例资料 >

社交媒体大数据的三挑战三准则,你知道几条?

我要收藏
2020-07-13

社交媒体数据由于其蕴含丰富的时空、语义信息的特点,成为了理解居民行为和城市空间的一个重要手段。社交媒体数据挖掘也成为了时空数据挖掘与知识发现领域最活跃的研究方向之一。北京大学刘瑜教授、德克萨斯州立大学袁一泓教授、麻省理工学院张帆博士应邀合作在Journal of Spatial Information Science发表Vision Paper “Mining urban perceptions from social media data”,围绕社交媒体大数据的相关研究进行了讨论。




文章首先概述了从社交媒体大数据中挖掘用户群体情感语义的一系列方法;进而讨论了社交媒体大数据研究中三个方面的挑战,以及对于此类研究范式的三个准则;最后对未来的研究提出了一些展望与期待。



1 社交媒体大数据中的情感语义挖掘


随着移动互联网技术的发展,用户在微博、Facebook、Twitter、Foursquare、Flicker、Yelp等社交媒体平台上产生了海量的数据。这些带有时空属性的社交媒体大数据(Social Media Data),一方面为我们度量人们在不同场所(Place)中的情感提供了途径[12,14],另一方面也从居民认知的角度,辅助理解城市的空间分异格局[15,18]。这些研究为城市规划和政策制定提供了有效的参考,也为量化可持续发展目标(Sustainable Development Goals)提供了有力的支持[9]。


社交媒体大数据不但包含了空间信息(如位置、场所名称),更重要的是其蕴含了丰富的上下文信息和语义信息。例如,其中的文本数据描述了人们在特定场所的活动类型和情感体验,通过自然语言处理技术可以予以提取;而其中的图片信息描述了场所的环境质量以及物质空间配置,借助计算机视觉技术可以实现这些信息的挖掘和表达[1,3,17]。


具体来讲,一方面,通过自然语言处理技术,我们不但可以提取文本中描述位置的信息,而且可以进一步挖掘文本背后表达的人类活动信息、情感信息等。位置信息和人类活动特征同时也构成了人文地理中“场所(place)”概念的两个重要的组成部分[2]。


针对场所位置的边界模糊性问题,早期的研究多利用模糊集(Fuzzy Sets)的方法来对场所的空间范围进行表达。而借助自然语言处理的方法,我们可以通过提取语料中的地名分布的方式(如关键字“哈佛大学校园”的分布),并结合核密度估计的方法,来对场所的模糊边界进行建模和表达[6]。


除此之外,借助文档主题生成模型(Latent Dirichlet Allocation),我们还可以从文本信息中提取相关话题,如旅游、运动、餐饮等在城市中的分布模式[4,10],探索居民情感空间与社会经济环境间的关系[19]。


另一方面,计算机视觉和深度学习技术为社交媒体图片内容的理解提供了有力的工具。例如,通过场景语义分割模型(Image Scene Segmentation),我们可以识别图片中的建筑物、天空、植被等对象的占比,形成绿视率、天空开放度等描述城市物质空间的一些列指标,来进一步探索物质空间与居民行为、心理健康、公共卫生等方面的相互影响关系[11]。


除此之外,借助计算机视觉模型和一些先验知识,我们可以通过端对端的方式对图片所表达的整体场景进行建模与估计。例如,Zhang et al. 通过大量个体对场景的评价信息,训练了一个深度学习模型,来实现对照片场景的安全感、美丽感、压抑感等六个感知维度的评分[21]。图1所示为模型对休斯顿地区街景图片评分所形成的“安全感地图”。


1594621584610899.jpg

▲ 图1 休斯顿地区“安全感地图”





2 社交媒体大数据研究中的挑战


社交媒体大数据为挖掘居民活动、情感等方面的研究带来了前所未有的机遇,然而,其研究过程中存在的挑战也不容忽视,以下讨论了几点常见的问题。


第一,数据有偏性问题。社交媒体数据的数据质量往往难以保证,除了数据本身的代表性以外,我们获取数据的过程,也都不能保证在人口统计学、时空维度或是语义维度上做到无偏采样[20]。如果没有对数据采取有针对性的策略来解决有偏性,得到的结论可能是有问题的。


另一方面,社交媒体数据虽然体量较大,但数据维度通常比较单一,被认为是一种“薄数据”。例如,我们可以很容易地获取到用户的社交媒体推送内容,但却较难直接得到用户的年龄、性别、职业等更细节的信息[13]。这会导致研究结论容易陷入“生态学谬误(Ecological Fallacy)”——在人群层面,体现为拿群体层面的宏观信息来有偏地表达个体层面的细节信息;在空间尺度方面,体现为在大空间单元得到的结论来错误地推广至小空间单元,这类可变面状单元问题(MAUP)在地理信息科学研究中经常被讨论。


第二,缺少验证数据。在针对社交媒体数据的研究中,我们通常会提出一些新的工具或者度量(Metrics)来提取某些信息或者指标。然而,我们很难获取与这些指标对应的真值(Ground Truth)数据来进行验证。例如,通过微博数据提取,结合自然语言处理的方法,我们可以获取某个城市中居民情感的时空分布,而针对“情感”这样的特殊属性,我们往往难以获取与之时空尺度对应的实际统计数据,来验证我们的结论[16]。


第三,方法和结论难以泛化。在利用解析模型或机器学习模型对社交媒体数据进行表达和建模时,往往会引入不确定性[5]。如果一味地追求方法的准确度(Accuracy)而忽略了模型的泛化能力(Generality),我们得到的模型就会在训练集中过拟合(Over-fitting)而在测试集中表现较差,在实证研究中体现为在特定场景中模型的准确度较高,而在其他场景中的效果大打折扣。



3 社交媒体大数据研究中的三个准则


针对上述挑战,在开展社交媒体大数据研究的过程中,应考虑以下三个准则,按照优先级和重要程度,分别为:方法合理性,常识一致性,间接可验证性。


● 方法合理性

社交媒体数据的分析工作需要基于合理的方法。例如,在文本分析中,文档主题生成模型是一种提取文本主题的一种较为成熟的方法, 这样的方法就可以合理地应用于微博语料的分析[8]。但在预测任务中,在模型中加入某些与任务毫不相干的变量虽然可能会提高预测精度,但这样的方法显然是不合理的。


● 常识一致性

基于社交媒体数据得到的结论,一般会与常识保持一致。例如,我们通过分析可以获取某个城市居民活动的时空分布模式,交通枢纽、中心商务区、旅游景区往往会是人群活动比较活跃的区域,但如果在某项分析中得到了完全相反的结论,就可能需要重新审视数据的表达性是否有偏,方法是否合理等。


● 间接可验证性

基于社交媒体大数据的研究,往往由于缺少真值而难以直接验证。在这种情况下,可以通过执行某些其他相关的任务,来间接地验证研究结论或提出的某项指标是否合理。例如,在斯坦福人工智能实验室的一项研究中,他们提出假设:从街景图片中提取出的社区车辆类型信息可以反映当地细粒度的人口统计学特征和政治倾向。由于缺少实际的真值来验证,研究利用车辆信息对美国大选的投票情况进行了预测,并取得了较高的准确度,间接地验证了研究结论[7]。



4 展望与期待


由于单一数据源的表达能力有限,为了同时满足上述“三准则”,多源数据融合是一个潜在的途径。融合多种来源的数据可以从多个视角来观测对象,缓解单一数据源带来表达有偏性问题,多源数据之间也可以形成交互验证。此外,基于访谈、调查问卷等途径获取的小数据的价值同样不可忽视。


此类“小数据”经过良好的实验设计,且往往包含丰富的个体层面的统计数据,可以作为社交媒体数据的有力补充,实现对研究对象更加准确的表达,从而建立更加精细和鲁棒的模型。除此之外,我们还应关注建立一个针对社交媒体数据的统计方法框架,针对不同来源、类型、质量的数据,进行统一标准的、具有统计学意义的整合和分析。


随着5G时代的即将到来,更加快速和高带宽的移动互联网、移动物联网会接踵而至,我们可以预见到更多、更丰富的时空大数据的产生,例如基于众包的高清视频、三维点云等数据。相比图片、文本等数据,此类数据蕴含着更丰富的有关城市和人类感知的信息,但同时也对数据处理和分析方法提出了新的要求。针对这些新的挑战和机遇,我们同样要做好充分的准备,来迎接5G时代的到来。



 参考文献 

[1] AGGARWAL, C. C., AND WANG, H. Text mining in social networks. In Social network data analytics. Springer, 2011, pp. 353–378.

[2] AGNEW, J. Space and place. The SAGE handbook of geographical knowledge. Sage London, 2011.

[3] BAO, J., ZHENG, Y., AND MOKBEL, M. F. Location-based and preference-aware recommendation using sparse geo-social networking data. In Proceedings of the 20th international conference on advances in geographic information systems (2012), pp. 199–208.

[4] BLEI, D. M., NG, A. Y., AND JORDAN, M. I. Latent Dirichlet allocation. Journal of machine Learning research 3, Jan (2003), 993–1022.

[5] BOX, G. E., AND DRAPER, N. R. Empirical model-building and response surfaces, vol. 424. Wiley New York, 1987.

[6] GAO, S., LI, L., LI, W., JANOWICZ, K., AND ZHANG, Y. Constructing gazetteers from volunteered big geo-data based on Hadoop. Computers, Environment and Urban Systems 61 (2017), 172–186. 

[7] GEBRU, T., KRAUSE, J., WANG, Y., CHEN, D., DENG, J., AIDEN, E. L., AND FEI-FEI, L. Using deep learning and google street view to estimate the demographic makeup of neighborhoods across the United States. Proceedings of the National Academy of Sciences 114, 50 (2017), 13108–13113.

[9] ILIEVA, R. T., AND MCPHEARSON, T. Social-media data for urban sustainability. Nature Sustainability 1, 10 (2018), 553–565.

[8] HONG, L., AND DAVISON, B. D. Empirical study of topic modeling in Twitter. In Proceedings of the first workshop on social media analytics (2010), pp. 80–88.

[10] LANSLEY, G., AND LONGLEY, P. A. The geography of Twitter topics in London. Computers, Environment and Urban Systems 58 (2016), 85–96.

[11] LI, X., ZHANG, C., LI, W., RICARD, R., MENG, Q., AND ZHANG, W. Assessing street-level urban greenery using Google Street View and a modified green view index. Urban Forestry & Urban Greening 14, 3 (2015), 675–685.

[12] LIU, Y., LIU, X., GAO, S., GONG, L., KANG, C., ZHI, Y., CHI, G., AND SHI, L. Social sensing: A new approach to understanding our socioeconomic environments. Annals of the Association of American Geographers 105, 3 (2015), 512–530.

[13] LONGLEY, P. A., AND ADNAN, M. Geo-temporal Twitter demographics. International Journal of Geographical Information Science 30, 2 (2016), 369–389.

[14] MACEACHREN, A. M. Leveraging big (geo) data with (geo) visual analytics: Place as the next frontier. In Spatial data handling in big data era. Springer, 2017, pp. 139–155.

[15] MARTÍ, P., SERRANO-ESTRADA, L., AND NOLASCO-CIRUGEDA, A. Using locative social media and urban cartographies to identify and locate successful urban plazas. Cities 64 (2017), 66–78. 

[16] MITCHELL, L., FRANK, M. R., HARRIS, K. D., DODDS, P. S., AND DANFORTH, C. M. The geography of happiness: Connecting Twitter sentiment and expression, demographics, and objective characteristics of place. PloS one 8, 5 (2013).

[17] ROICK, O., AND HEUSER, S. Location based social networks—definition, current state of the art and research agenda. Transactions in GIS 17, 5 (2013), 763–784.

[18] SHELTON, T., POORTHUIS, A., AND ZOOK, M. Social media and the city: Rethinking urban socio-spatial inequality using user-generated geographic information. Landscape and urban planning 142 (2015), 198–211. 

[19] YANG, W., AND MU, L. GIS analysis of depression among Twitter users. Applied Geography 60 (2015), 217–223.

[20] YUAN, Y., LU, Y., CHOW, T. E., YE, C., ALYAQOUT, A., AND LIU, Y. The missing parts from social media-enabled smart cities: Who, where, when, and what? Annals of the American Association of Geographers 110, 2 (2020), 462–475.

[21] ZHANG, F., ZHOU, B., LIU, L., LIU, Y., FUNG, H. H., LIN, H., AND RATTI, C. Measuring human perceptions of a large-scale urban region using machine learning. Landscape and Urban Planning 180 (2018), 148–160. 



 引用格式 

LIU, Y., YUAN, Y., ZHANG, F. Mining urban perceptions from social media data. Journal of Spatial Information Science 2020, 20 (2020), 51–55.

doi:10.5311/JOSIS.2020.20.665.


本文转载自微信公众号:城市数据派,如需转载请联系城市数据派。

本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞0