用户名
密码
(30天内有效)
注册
注册
首页 > 案例资料 >

基于土地利用回归模型的北京市PM2.5和NO2空间分布模拟

我要收藏
2015-08-20

基于土地利用回归模型的北京市PM2.5NO2空间分布模拟

 

摘要:PM2.5和NO2是北京市的主要大气污染物,对公众健康有严重危害。土地利用回归模型在大气污染物浓度的时空模拟方面有着广泛的应用。本研究利用2013年3月-2014年3月北京市35个空气质量监测站点的大气污染物浓度数据,结合土地利用、路网、人口、公交站点和餐饮业分布等地理信息数据,建立土地利用回归模型,对PM2.5和NO2浓度的空间分布进行模拟。76个自变量最终分别有3个和2个进入PM2.5和NO2的土地利用回归模型,两个模型的修正R2分别为58.47%和68.42%。研究结果表明:1) 北京市PM2.5和NO2的年均浓度分别为90.72μg/m3和54.40μg/m3。2) 影响PM2.5浓度空间分布的主要因素有:周边自然植被的面积、主干道长度和水体面积;影响NO2浓度空间分布的主要因素有:周边不透水地表的面积和主干道长度。3) PM2.5浓度的空间分布呈现出“平原高,山区低”的特点,NO2浓度的空间分布呈现“城区高、郊区低”的特点,道路周边的两种污染物浓度均很高。PM2.5和NO2浓度有很强的空间正相关性,而NO2浓度的空间分异更明显。4)北京市PM2.5和NO2的长期人口暴露浓度分别为96.45μg/m3和60.34μg/m3,北京市长期人口PM2.5暴露浓度严重超标。

 

关键词:北京市;土地利用回归模型;PM2.5;NO2;空间分布;人口暴露

 

Applying land use regression to evaluate spatial variation of PM2.5 and NO2 in Beijing

 

Abstract: PM2.5 and NO2 are the main air pollutants in Beijing, posing serious threats to human health. Land use regression (LUR) has been widely used in predicting air pollutant concentrations at high spatiotemporal resolution. Using air quality data of 35 monitoring sites of Beijing from 4th March 2013 to 5th March, 2014, combined with land use, road network, population, bus stop and restaurant distribution, we established the land use regression to evaluate spatial distribution of the concentration of PM2.5 and NO2. Among all 76 variables, three and two independent variables are included in the final regression model for PM2.5 and NO2, and the adjusted R2 values for two models are 58.47% and 68.42%, respectively. Research results show that: 1) The annual concentrations of PM2.5 and NO2 are 90.72μg/m3and 54.40μg/m3 in Beijing. 2) The spatial distribution of PM2.5 concentrations are determined by the surrounding area of natural vegetation, the length of nearby major roads and the area of water land use, while the spatial distribution of NO2 concentrations are affected by the surrounding area of impervious land use and the length of nearby major roads. 3) PM2.5 concentrations are high in the plain area and low in the mountainous area, and NO2 concentrations are high in the central downtown and low in the suburbs. Both pollutants have high concentrations near major roads, and PM2.5 concentrations are spatial positive correlated with NO2, but NO2 concentrations show more spatial heterogeneity than PM2.5. 4) Annual outdoor exposure for PM2.5 and NO2 are as high as 96.45μg/m3 and 60.34μg/m3 in Beijing, respectively.

 

Key words: Beijing; land use regression; PM2.5; NO2; spatial distribution; outdoor exposure

1.       引言(Introduction)

近年来,北京市灰霾事件频发,大气污染成为了社会各界讨论的热点问题。细颗粒物(PM2.5,即粒径≤ 2.5μm的颗粒物)和氮氧化物(NOX)是北京地区复合型大气污染的主要污染物(曾静等, 2010; 赵秀娟等, 2013),也是引发灰霾天气的细粒子主要组成部分(吴兑, 2012; 余锡刚等, 2010)。北京市PM2.5的年均浓度在70-100μg/m3之间(Cheng et al., 2013; Zhang et al., 2013; Zhao et al., 2009),超过世界卫生组织规定的一级临界标准(35μg/m3)1-2倍之多。PM2.5粒径小,吸附性强,组成复杂,可携带重金属、硫酸盐、有机物、病毒等进入呼吸道和肺部,可对人体心、肺等健康构成直接威胁(冯奇等, 2012; Anderson et al., 2012; Pope III and Dockery, 2006)。北京市PM2.5主要来源于燃煤和工业过程、二次转化、地面扬尘、机动车尾气和生物质燃烧等(王志娟等, 2012; 朱先磊等, 2005)。监测显示,随着机动车持有量的增加,北京市近20年来NOX浓度超标情况显著上升,空气污染处于由煤烟型向机动车尾气型转变的过程中,表现出典型的复合污染特征(张菊等, 2006)。NOX会导致酸雨和光化学烟雾,对人体健康有严重危害,其主要来源于燃料燃烧和汽车尾气(胡和兵等, 2006)。

       获取大气污染物浓度的时空分布对于流行病学研究和大气污染防治均有着重要的意义。国内的大气污染暴露或者流行病学研究一般假定研究区中的大气污染物浓度是均一的(Hou et al., 2010; Zhang et al., 2013; Zhang et al., 2012; 陈娟, 李巍; 杨敏娟, 潘小川, 2008; 谢元博等, 2014),或者使用Kriging等方法对污染物的空间分布进行空间插值(Zhang, et al., 2013)。这些研究多忽略了大气污染物浓度的空间分异,导致了估计的误差。为了更好地模拟城市尺度的大气污染物浓度空间分布,国内外学者提出了许多方法,诸如污染物-气象逐步回归模型(周丽等, 2003)、扩散模型(Dispersion Models)(Oosterlee et al., 1996)、空间插值(Liu and Rossini, 1996)、土地利用回归(Land Use Regression, LUR)(Briggs et al., 1997)等。

土地利用回归最早是由Briggs(Briggs et al., 1997)于1997年在小区域空气质量和健康分异(Small Area Variations In Air quality and Health, SAVIAH)研究中提出的。它是一种模拟城市尺度大气污染物浓度空间分异的通用模型,其通常利用数十个采样站点的大气污染物浓度数据作为因变量,在通过在地理信息系统(GIS)框架内获取站点周边的土地利用、交通、人口密度等分布数据作为自变量,建立统计回归模型来分析这些因素对大气污染物浓度空间分布的影响。之后根据回归模型,可以对研究区内任意位置的大气污染物浓度进行估计。土地利用回归模型考虑的因变量不仅仅只有土地利用相关的变量,一般常见的还有交通、工业排放、气候、地形、人口分布等可能影响大气污染物时空分异的要素。然而,大多数研究中仍然将之称之为土地利用回归模型。土地利用回归模型比较适合于城市尺度的大气污染物浓度时空分异的模拟,其通常使用污染物的长期监测浓度(如年均浓度)作为模型的因变量,需要的监测站点个数一般为20-80个(Hoek et al., 2008)。一般而言,更小的监测样本数和更多的模型解释变量可以带来更好的模型R2结果(Basagaña et al., 2012)。土地利用回归模型已经在欧洲和北美得到了广泛应用,在各类大气污染物的时空模拟上均有不错表现。国内对于土地利用回归的报道尚不多(Li et al., 2010a, b)。

本文利用2013年3月-2014年3月北京市35个空气质量监测站点的大气污染物浓度数据,结合土地覆被、路网、人口密度和餐饮业分布等可能影响污染物浓度空间分布的数据,建立土地利用回归模型,首先分析影响PM2.5和NO2浓度空间分布的要素,之后并对两者浓度的空间分布情况进行模拟,最后分析两种污染物的长期人口暴露情况。本文首次获取了北京市PM2.5和NO2浓度的高分辨率空间分布结果,有助于土地利用回归模型在我国的推广,为流行病学等相关学科的研究提供了依据,对于北京市大气污染的防治有一定的参考价值。

 

2.       材料与方法(Materials and Methods)

2.1    数据来源及预处理

研究区域为北京市。研究所用的数据主要有2013年3月4日至2014年3月5日北京市35个大气质量监测站点每天每隔1小时的PM2.5和NO2浓度的监测数据,来源于北京市环境保护监测中心网站(http://zx.bjmemc.com.cn/)。35个站点分为城区环境评价点、郊区环境评价点、对照点及区域点和交通污染监控点4类,其分布状况如图1所示。

 

1 北京市空气质量监测站点分类及分布情况

Fig. 1 Classification and distribution of Beijing's air quality monitoring sites

研究用到的资料还有北京市2010年土地覆被数据,来源于清华大学地球系统科学研究中心(Gong et al., 2013),空间分辨率为30m。路网数据是根据2014年Landsat 8 OLI结合Google Earth矢量化得到,分为主干道和次要道路两类。人口数据来源于LandScan 数据集(ORNL, 2014),为2008年北京市人口密度数据,空间分辨率为0.5分(8.33×10-3十进制度,约816m)。DEM数据来源于地理空间数据云(http://www.gscloud.cn/),空间分辨率为30m。所用到的餐饮业店铺位置数据抓取自新浪微博(http://weibo.com/),共包含了440,449条签到记录,涉及到13,553个饭店的空间坐标、属性信息。公交站点数据来源于Beijing City Lab(http://www.beijingcitylab.com/),共有42,161个公交站点的坐标与属性信息。

对于每个站点的空气质量监测数据,取一年的PM2.5和NO2浓度均值作为土地利用回归模型的因变量。土地覆被原始数据共将北京市划分为20种用地类型。本研究合并其中的一些子类别,最终将土地覆被数据划分为不透水地表、自然植被、水体、裸地和农田5类。此外,在不透水地表类别中,又根据IPE提供的北京市污染地图(IPE, 2013)结合Google Earth提取了工业用地。对于餐饮店铺,根据每个饭店的签到次数将所有店铺分为5级,代表其污染排放等级。除此之外,还根据路网数据获取了北京市十字路口的分布。

2.2    土地利用回归模型的构建

       土地利用回归模型是在GIS框架内构建的大气污染物监测浓度与土地利用类型、交通、人口分布等相关因素的多元回归模型。模型的构建分为了模型变量的生成、模型先验假定与算法设置、模型检验和回归映射四个部分。

2.2.1          模型变量的生成

本文将模型的自变量共分为7大类,每个大类再进行细分,并且根据缓冲区距离的不同共产生了76个子自变量,来表征交通、土地覆被、人口分布,餐饮业分布和地形等可能对污染物浓度空间分布产生影响的因素在监测站点处或站点周边的分布。对于变量缓冲区的设置,考虑了各类别自变量的分布模式和对污染物浓度的影响范围,结合各栅格的空间分辨率,并参考了Henderson S B[6],Zev Ross[17]等对自变量缓冲区的设定,将各个类型变量的栅格设置如下。自变量的分类、描述与缓冲区的设置见表1。

 


1 自变量的分类、描述以及缓冲区设置

Table 1. Classification, descriptions and buffer setting of independent variables

变量类别

(个数)

变量描述

变量子类别

缓冲区

(m)

路网(12)

每种类型道路在不同缓冲区内的总长度(m)

mr(主干道)

sr(次要道路)

100;200;300;500;750;10001)

土地覆被 (36)

每种土地覆被类型在不同缓冲区内的总面积(m2)

bud(不透水地表)vege(自然植被)wat(水体)bare(裸地)crop(农田);工业用地(ind)

100;300;500;1000;2000;3000

人口(3)

不同缓冲区内的人口总数()

pop(人口)

1000;2000;5000

饭店(8)

不同缓冲区内的饭店等级与数量的乘积之和()

cat(饭店)

100;200;300;500;750;1000;2000;3000

公交站点(8)

不同缓冲区内的公交站点数量()

bus(公交站点)

100;200;300;500;750;1000;2000;3000

十字路口(8)

不同缓冲区内的十字路口数量()

inter(十字路口)

100;200;300;500;750;1000;2000;3000

海拔(1)

监测站点所在的海拔高度(m)

DEM(海拔)

N/A

1)按照Hoek(Hoek et al., 2008)描述的交通变量缓冲区设置规则,道路长度变量的最大缓冲区范围设置为1000m

 

2.2.2          模型先验假定与算法设置

       针对模型中的不同变量类型,已有研究通常对其系数正负做出先验假定(Henderson et al., 2007; Hoek et al., 2008)(如假定交通变量的系数必须为正)。本文根据各因素对大气污染物的产生和削减情况,做出如表2的假定。


2 模型变量系数符号假定

Tab. 2 Symbol assumption of the variables coefficient

变量

变量描述

系数符号规定

mr_i(i=100;200;300;500;750;1000m)

i米缓冲区范围内主干道长度(m)

+

sr_i(i=100;200;300;500;750;1000;m)

i米缓冲区范围内一般道路长度(m)

+

bud_i(i=100;300;500;1000;2000;3000m)

i米缓冲区范围内不透水地表的面积(m2)

+

vege_i(i=100;300;500;1000;2000;3000m)

i米缓冲区范围内自然植被的面积(m2)

-

wat_i(i=100;300;500;1000;2000;3000m)

i米缓冲区范围内水体的面积(m2)

-

bare_i(i=100;300;500;1000;2000;3000m)

i米缓冲区范围内裸地的面积(m2)

+

ind_i(i=100;300;500;1000;2000;3000m)

i米缓冲区范围内裸地的面积(m2)

+

cat_i(i=100;200;300;500;750;1000;2000;3000m)

i米缓冲区内的饭店等级与数量的乘积之和()

+

bus_i(i=100;200;300;500;750;1000;2000;3000m)

i米缓冲区范围内公交站点的个数()

+

inter_i(i=100;200;300;500;

750;1000;2000;3000m)

i米缓冲区范围内十字路口的个数()

+

      

本文设置的土地利用回归模型算法参考了Henderson(Henderson, et al., 2007),Kashimaa(Kashima et al., 2009),Saraswat(Saraswat, et al., 2013)等所采用的方法。该算法遵循如下步骤:1)对于每一种污染物浓度,将所有自变量与因变量的相关程度按照其绝对值的大小从大到小排序;2)在每个子类别的自变量当中,确定与因变量相关程度最高自变量,即排序最高的自变量,记为x_j(j为对应缓冲区的大小);3)在每个子类别中,去除与x_j相关性显著的变量(Pearson检验中r >0.6),以消除模型变量之间的共线性;4)将剩余自变量输入逐步线性回归的有效性库中;5)将如下自变量在模型的有效性库中剔除:在显著水平下不满足T检验、不满足模型先验假定的或者35个样本中非零值少于5个的;6)重复步骤4和步骤5,使得模型收敛,并剔除对于最终模型R2贡献率不足1%的自变量。

本文分别对PM2.5和NO2建立土地利用回归模型,采用SPSS 20.0软件利用上述模型算法进行逐步多元线性回归来估计待定参数,得出回归方程。通过对回归系数的统计检验,剔除不显著的因素和不符合模型假定的回归方程,得到最终结果。

 

2.2.3          模型检验

       土地利用回归模型的检验方法主要有留一验证(Leave-one-out Cross Validation)、预留样本检验等(Hoek et al., 2008)。本文由于监测站点数量的限制,采用留一验证(Picard and Cook, 1984)的方法对模型的合理性和精确程度进行验证,即用n-1个样本来建立土地利用回归模型,计算出剩余一个样本模型估计值,并与该样本点的实际大气污染物浓度进行比较。这个过程被重复n次,剩余样本的均方根误差(RMSE)被作为描述模型好坏程度的结果。此外,由于线性回归假定了残差的空间独立性(Hoek et al., 2008),本文在ArcGIS10.0中计算了回归模型残差的全局Moran’s I指数,来判断残差是否具有空间自相关。

2.2.4          回归映射

       得到最终的土地利用回归模型后,利用回归方程对北京市非监测点位进行污染物浓度的空间模拟,此过程称为回归映射(Regression Mapping)(Briggs et al., 1997)。回归映射类似于地统计学中的空间插值,而它能更好地从机理上模拟污染物的空间分异。本文对回归映射的结果做出如下规定(Henderson et al., 2007):当某栅格的回归映射结果小于所有监测站点污染物浓度最小值的60%时,将该栅格的污染物浓度赋为监测站点污染物浓度最小值的60%;当某栅格的回归映射结果超过所有监测站点污染物浓度最大值的20%时,将该栅格的污染物浓度赋为监测站点污染物浓度最大值的120%。

2.3    人口暴露

根据回归映射得到大气污染物的年均浓度分布之后,结合人口分布数据,计算北京市PM2.5和NO2的长期人口暴露浓度。计算公式如下:

其中,为北京市大气污染物的长期人口平均暴露浓度,是人口密度栅格中第i行,第j列的人口密度,是与之对应的污染物年均浓度。

3.       结果(Results)

3.1    污染物浓度统计性描述

根据35个站点从2013年3月4日至2014年3月5日的监测浓度记录,北京市PM2.5和NO2的年均浓度分别为90.72μg/m3 (标准差SD=13.67)和54.40μg/m3 (SD=16.32)。两者在35个站点的年均浓度近似符合正态分布。所有站点中,PM2.5和NO2浓度的最大年均浓度分别出现在琉璃河(115.89μg/m3)和南三环西路(86.26μg/m3),最小年均浓度均出现在密云水库(62.05μg/m3;15.64μg/m3)。PM2.5和NO2年均浓度的全局Moran’s I指数分别为0.17(z-score =2.66, p-value <0.01)和0.49(z-score =6.84, p-value <0.01),两者年均浓度的空间分布呈现显著空间正相关。

3.2    土地利用回归模型

在SPSS20.0软件按照上述步骤建立土地利用回归模型,之后通过留一检验和残差的空间相关性检验来验证模型结果。最终的模型参数如表3所示。


表3 土地利用回归模型结果

Tab. 3 Results of land use regression

污染物

进入模型的变量

模型系数

模型结果参数

B

Beta

T

Sig.

VIF5)

PM2.5

Constant

94.39

 

37.85

0.00

 

R2=62.13%

Adj R2=58.47%

ANOVA Sig.=0.000

本站声明

本文仅代表作者观点,不代表城市数据派立场;
本文系作者授权城市数据派发表,未经许可,不得转载;
本网站上的所有内容均为虚拟服务,一经购买成功概不退款,请您理解。

点赞0