鐵甲工程機械網(wǎng)> 工程機械資訊> 行業(yè) > 恒隆研究| 建筑學院趙彬教授課題組提出大時空尺度下室內(nèi)PM2.5濃度預測的機器學習模型評估框架

恒隆研究| 建筑學院趙彬教授課題組提出大時空尺度下室內(nèi)PM2.5濃度預測的機器學習模型評估框架

語音播報
點擊播放

室內(nèi)環(huán)境中的細顆粒物(PM2.5)污染作為全球重要的公共衛(wèi)生問題之一,由于其高度非線性和復雜性而面臨重大挑戰(zhàn)。因為烹飪、吸煙、清潔等揚塵行為都會引起室內(nèi)PM2.5濃度的顯著波動。但是,很難進入私人空間收集足夠的來自家庭的細顆粒物污染相關數(shù)據(jù)。囿于輸入數(shù)據(jù)和信息的局限,傳統(tǒng)的質(zhì)量平衡原理計算模型難以預測未來的室內(nèi)PM2.5濃度變化趨勢。機器學習技術的最新進展為城市計算提供了新的潛力,成為傳統(tǒng)方法的有益補充。其中,隨機森林和各種人工神經(jīng)網(wǎng)絡及其變體方法已成為最受歡迎和廣泛使用的技術。然而,現(xiàn)有的許多“黑箱”模型在可靠性、泛化性和可解釋性方面仍未闡明清楚。

近日,清華大學建筑學院趙彬教授課題組與合作者的最新研究通過多機器學習模型的比較、驗證和歸因的全面評估框架(圖1),證明了貝葉斯神經(jīng)網(wǎng)絡模型(BNN)在識別城市住宅PM2.5暴露的人口水平差異方面具有顯著優(yōu)勢。研究選取了高斯過程回歸(GPR)、分位數(shù)隨機森林(QRF)和BNN三種模型進行對比。這三種方法是用于區(qū)間預測的代表性概率機器學習模型,且三種模型的結構復雜性以及黑箱程度逐步增加,一定程度代表了從“淺”到“深”的方法論思想。此外,通過獨立數(shù)據(jù)源驗證其泛化性,并使用SHapley加性解釋(SHAP)方法對這些模型進行進一步分析,以量化其多因素貢獻并闡明模型性能的差異。

圖1 機器學習模型驗證-對比-歸因的評價框架。 GPR: 高斯過程回歸; QRF: 分位數(shù)隨機森林; BNN: 貝葉斯神經(jīng)網(wǎng)絡. MAE: 平均絕對誤差 (μg/m3); RMSE: 均方根誤差 (μg/m3); R2:決定系數(shù). SHAP: SHapley加性解釋方法。

研究發(fā)現(xiàn)BNN模型在保證這個區(qū)間的濃度預測準確的前提下,比QRF和GPR模型捕捉峰值濃度方面表現(xiàn)更為卓越,尤其是在樣本量有限的情況下??偨Y三個模型在兩個數(shù)據(jù)源上的性能指標對比(表1),發(fā)現(xiàn)GPR模型對測量數(shù)據(jù)點的覆蓋不足,無法有效捕捉某一天城市內(nèi)不同住宅之間的日均PM2.5濃度變化。QRF模型在新數(shù)據(jù)集上的表現(xiàn)較差,數(shù)據(jù)源Ⅱ中的R2、MAE和RMSE(分別為0.24、20.0 μg/m3和31.4 μg/m3),顯著低于數(shù)據(jù)源Ⅰ訓練集中的相應值(分別為0.95、3.09 μg/m3和4.71 μg/m3)。這種顯著的性能差異表明,QRF模型在訓練集上的優(yōu)越表現(xiàn)可能源于過擬合問題。而BNN模型在均值擬合和區(qū)間覆蓋方面均表現(xiàn)優(yōu)異,展現(xiàn)了良好的泛化能力。因此,綜合考慮模型在兩個數(shù)據(jù)集上的一致性和魯棒性,BNN模型被確定為最優(yōu)模型,能更準確地反映數(shù)據(jù)的真實波動。

進一步,該研究采用SHAP方法闡明了不同輸入因素對三種模型預測的總體影響(圖2)。結果表明,三種模型之間的差異可主要歸因于GDP和人口的貢獻不同。具體而言,GPR模型主要將住宅PM2.5濃度與室外PM2.5濃度和室外氣象條件關聯(lián),分別占總貢獻的56%和27%。相比之下,BNN和QRF模型中GDP和人口這兩個輸入因素的貢獻顯著增加:GDP在對BNN和QRF模型的貢獻中分別排名第二(15%)和第四(8%),而人口在這兩種模型中的貢獻排名第三(13%)和第二(17%)。這表明,要有效捕捉城市層面住宅PM2.5濃度的復雜變化,除了室外濃度和氣象特征外,還需考慮社會經(jīng)濟因素。

圖2 輸入因素對BNN、QRF和GPR模型的貢獻評估。(a) 特征的重要性排序;(b) 數(shù)據(jù)源I中各個樣本的SHAP值分布。正SHAP值表示該特征增加了預測結果,而負值表示預測結果減少。顏色漸變表示數(shù)值特征的實際值。 BNN: 貝葉斯神經(jīng)網(wǎng)絡; QRF: 分位數(shù)隨機森林; GPR: 高斯過程回歸。PM2.5_out: 室外日均 PM2.5濃度;Tair: 室外日均溫度; RHout: 室外日均濕度;GDP:國內(nèi)生產(chǎn)總值。

總體而言,數(shù)據(jù)驅(qū)動的機器學習方法已經(jīng)迅速發(fā)展成為一種與傳統(tǒng)方法并列的重要工具。盡管初期常因其黑箱特性而受到質(zhì)疑,但隨著未來對數(shù)據(jù)的重視、搜集和不斷完善,以及先進可解釋方法的結合,其可靠性和應用范圍必將進一步增強。本研究該框架能夠?qū)C器學習模型進行定性和定量解釋,從而為未來研究闡明城市特征與室內(nèi)空氣污染物之間復雜的非線性關系提供有價值的參考。

該項工作于4月7日以“大時空尺度下室內(nèi)PM2.5濃度預測的機器學習模型對比與評估”(Comparison and evaluation of machine learning models for predicting indoor PM2.5 concentrations on a large spatiotemporal scale)為題在線發(fā)表于《建筑模擬》(Building Simulation)。清華大學建筑學院建筑技術科學系2020級博士研究生代慧為該論文的第一作者,趙彬教授為通訊作者,北京航空航天大學董兆敏教授和深圳市建筑科學研究院股份有限公司的高峣高級工程師、任俊教授級高級工程師為合作作者。

本研究得到了清華大學恒隆房地產(chǎn)研究中心的資助。

文章鏈接:

https://doi.org/10.1007/s12273-025-1276-0



聲明:本文系轉載自互聯(lián)網(wǎng),請讀者僅作參考,并自行核實相關內(nèi)容。若對該稿件內(nèi)容有任何疑問或質(zhì)疑,請立即與鐵甲網(wǎng)聯(lián)系,本網(wǎng)將迅速給您回應并做處理,再次感謝您的閱讀與關注。

相關文章
我要評論
表情
歡迎關注我們的公眾微信