本技術(shù)屬于牙周炎預(yù)測模型,具體涉及基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。
背景技術(shù):
1、牙周炎是一種全球范圍內(nèi)常見且不可逆的持續(xù)性炎癥,對口腔結(jié)締組織產(chǎn)生不利影響,損害牙齒支撐結(jié)構(gòu),最終導(dǎo)致牙齒脫落。除了對口腔健康的有害影響外,牙周炎還會引發(fā)輕度全身性炎癥,隨著時間的推移,這種炎癥可能會引發(fā)或加劇各種持續(xù)性炎癥,包括心血管疾?。ㄈ绺哐獕海?、糖尿病和阿爾茨海默病等。
2、大量研究闡明了長期接觸重金屬和多環(huán)芳烴與牙周炎風(fēng)險升高之間的密切關(guān)聯(lián),但重金屬和多環(huán)芳烴與牙周炎之間錯綜復(fù)雜的非線性聯(lián)系對傳統(tǒng)線性統(tǒng)計方法的應(yīng)用構(gòu)成了巨大挑戰(zhàn),并且重金屬與多環(huán)芳烴之間的協(xié)同效應(yīng)仍然存在爭議。基于此,本發(fā)明使用可解釋的機器學(xué)習(xí)方法來了解重金屬、多環(huán)芳烴和中度/重度牙周炎之間的相關(guān)性,提出一種基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。
技術(shù)實現(xiàn)思路
1、為解決現(xiàn)有技術(shù)忽略重金屬和多環(huán)芳烴與牙周炎之間的非線性關(guān)系以及重金屬和多環(huán)芳烴之間的協(xié)同效應(yīng),本發(fā)明提供了一種基于可解釋性機器學(xué)習(xí)的環(huán)境重金屬和多環(huán)芳烴暴露下中度/重度牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。
2、為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:
3、基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法,包括以下步驟:
4、s1、基于nhanes數(shù)據(jù)集,對所述nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,獲取第一數(shù)據(jù)集;
5、s2、基于所述第一數(shù)據(jù)集,篩選所述第一數(shù)據(jù)集的特征,獲取特征數(shù)據(jù)集;
6、s3、基于特征數(shù)據(jù)集,訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰共5種算法,測試比較多個評估指標(biāo),選取最優(yōu)算法;
7、s4、基于最優(yōu)算法和特征數(shù)據(jù)集,結(jié)合排列特征重要性分析、部分依賴圖和加法解釋方法解釋模型。
8、nhanes數(shù)據(jù)集是美國疾病控制與預(yù)防中心下屬的國家衛(wèi)生統(tǒng)計中心開展的一項全國性調(diào)查項目。它是一個綜合性的公共衛(wèi)生數(shù)據(jù)庫,包含了美國人口的健康、營養(yǎng)和疾病狀況的詳細(xì)信息。
9、進(jìn)一步,步驟s1中,基于nhanes數(shù)據(jù)集,對所述nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,獲取第一數(shù)據(jù)集的方法,具體包括以下步驟:
10、s1.1、基于所述nhanes數(shù)據(jù)集,獲取x0個特征以及多個樣本;
11、s1.2、基于所述樣本,排除不符合標(biāo)準(zhǔn)的樣本;
12、s1.3、處理變量,獲取第一數(shù)據(jù)集。
13、進(jìn)一步,步驟s2中,基于所述第一數(shù)據(jù)集,利用lasso回歸和方差膨脹因子(vif)方法篩選所述第一數(shù)據(jù)集的特征,獲取特征數(shù)據(jù)集的方法,包括以下步驟:
14、s2.1、基于所述第一數(shù)據(jù)集,對重金屬和多環(huán)芳烴變量進(jìn)行對數(shù)變換;
15、s2.2、通過lasso回歸模型識別與牙周炎風(fēng)險相關(guān)的重金屬和多環(huán)芳烴變量,其中,lasso回歸模型的目標(biāo)是最小化以下?lián)p失函數(shù):
16、;
17、其中,是第i個觀測值的實際值;n是樣本數(shù)量;p是特征的數(shù)量;是正則化參數(shù),控制正則化的強度;是第j個特征的系數(shù);
18、是第i個觀測值的預(yù)測值,計算公式為:
19、;
20、其中,是截距項;,,…,是特征的系數(shù);,,…,是第i個觀測值的特征值;
21、s2.3、基于選好后的重金屬和多環(huán)芳烴變量以及協(xié)變量,采用方差膨脹系數(shù)vif評估變量之間的多重共線性,計算vif的步驟包括;
22、1.構(gòu)建線性回歸模型:將其中一個自變量xj作為因變量,其它自變量,,…,,,…,作為自變量,構(gòu)建一個線性回歸模型:
23、;
24、其中,是誤差項;是截距項;,,…,,…是回歸系數(shù);
25、2.計算輔助回歸模型的判定系數(shù):
26、是輔助回歸模型的擬合優(yōu)度,表示其它自變量對xj的解釋能力。
27、的取值范圍是[0,?1],值越大說明xj與其他自變量的線性關(guān)系越強。
28、計算總平方和tss:
29、;
30、其中,表示第i個樣本的xj值;表示xj的均值;
31、計算殘差平方和rss:
32、;
33、其中,表示輔助回歸模型對第i個樣本的預(yù)測值;
34、計算決定系數(shù):
35、;
36、3.計算vif:
37、對于自變量xj,其vif值計算公式為:
38、;
39、如果=0(即xj與其他自變量完全無關(guān)),則;
40、如果接近1(即xj與其他自變量高度相關(guān)),則趨近于無窮大。
41、s2.4、如果有變量的vif值大于等于10,需要逐一刪除vif值最高的變量,重新計算vif,直到所有vif值低于10,從而獲得特征數(shù)據(jù)集。
42、進(jìn)一步,步驟s3中,基于特征數(shù)據(jù)集,訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰共5種算法,測試比較多個評估指標(biāo),選取最優(yōu)算法的方法,包括以下步驟:
43、s3.1、基于所述特征數(shù)據(jù)集,對分類變量進(jìn)行獨熱編碼處理;
44、s3.2、基于處理后的特征數(shù)據(jù)集,按照特定比例將所述特征數(shù)據(jù)集中的樣本分為測試集和訓(xùn)練集;
45、s3.3、基于所述訓(xùn)練集,分別對所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法進(jìn)行訓(xùn)練,其中隨機森林的構(gòu)建過程如下:
46、1.構(gòu)建多棵決策樹
47、對于每棵樹t,t=1,2,…,t進(jìn)行自助法采樣和訓(xùn)練決策樹;其中,自助法采樣:從訓(xùn)練集d訓(xùn)中隨機抽取n個樣本(有放回),形成新的子集dt;訓(xùn)練決策樹:使用子集dt訓(xùn)練一棵決策樹;
48、在樹的每個節(jié)點分裂時,隨機選擇m個特征(m通常為總特征數(shù)的平方根),從中選擇最佳分裂點;
49、2.綜合預(yù)測效果
50、對于分類問題,即對所有樹的預(yù)測結(jié)果進(jìn)行投票,選擇票數(shù)最多的類別;
51、其中支持向量機的構(gòu)建過程如下:
52、設(shè)一個二分類問題,數(shù)據(jù)集為,其中,是特征向量,是目標(biāo)變量;目標(biāo)是找到一個,其中,是權(quán)重向量,是輸入特征向量,是偏差,使得:
53、所有正類樣本滿足;
54、所有負(fù)類樣本滿足;
55、分類間隔(兩個支持超平面之間的距離)最大化;
56、其中決策樹的構(gòu)建過程如下:
57、1)對于數(shù)據(jù)集d,計算其信息熵:
58、,其中,d是數(shù)據(jù)集;k是類別數(shù)量;pi是第i個類別的比例;
59、2)對于每個特征a,計算其信息增益;
60、,其中,a為特征;values(a)是特征a的所有可能取值;dv是特征a取值為v的子集;
61、3)選擇信息增益最大的特征作為當(dāng)前節(jié)點的劃分特征;
62、4)根據(jù)選擇的特征,將數(shù)據(jù)集d劃分為多個子集dv;
63、5)對于每個子集dv,遞歸地重復(fù)上述步驟1)-步驟4),直到滿足停止條件(包括節(jié)點內(nèi)樣本全部屬于同一類;節(jié)點內(nèi)樣本數(shù)小于預(yù)設(shè)閾值;樹的深度達(dá)到預(yù)設(shè)值);
64、當(dāng)滿足停止條件時,生成葉節(jié)點并返回類別;
65、其中,梯度提升樹的構(gòu)建過程如下:
66、假設(shè)有一個數(shù)據(jù)集,其中,xi是特征向量,yi是目標(biāo)變量;
67、1)初始化模型:
68、初始化模型為一個常數(shù)模型:;
69、其中,是損失函數(shù),對于均方誤差,是目標(biāo)變量的均值,是模型的預(yù)測值,通常是一個常數(shù)或一個函數(shù);
70、2)迭代構(gòu)建樹:
71、對于每一步m=1,2,…,m:
72、計算殘差:對于每個樣本i,計算殘差:;
73、擬合殘差:使用殘差作為目標(biāo)變量,訓(xùn)練一顆新的決策樹hm(x);
74、更新模型:將新樹的預(yù)測結(jié)果與當(dāng)前模型的預(yù)測結(jié)果相加:
75、;
76、其中,v是學(xué)習(xí)率(通常為?0.1?或?0.01),用于控制每棵樹的貢獻(xiàn);
77、3)組合模型:
78、最終模型為:;
79、其中,k最近鄰算法的構(gòu)建過程如下:
80、1)計算距離:
81、對于目標(biāo)樣本x,計算它與訓(xùn)練集中每個樣本xi的閔可夫斯基距離;
82、閔可夫斯基距離:;
83、其中,是目標(biāo)樣本x第j個特征上的取值、是訓(xùn)練樣本xi第j個特征上的取值,z表示閔可夫斯基距離的冪參數(shù),默認(rèn)為2;
84、2)選擇最近的k個鄰居:
85、根據(jù)計算的閔可夫斯基距離,選擇與目標(biāo)樣本x最近的k個訓(xùn)練樣本;
86、3)投票或加權(quán):
87、對k個鄰居的類別進(jìn)行投票,選擇票數(shù)最多的類別作為目標(biāo)樣本的預(yù)測類別;
88、4)輸出結(jié)果:
89、返回目標(biāo)樣本的預(yù)測類別。
90、s3.4、基于所述訓(xùn)練集,分別對所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法進(jìn)行5折交叉驗證;
91、s3.5、基于網(wǎng)格搜索算法,獲取所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法的最優(yōu)超參數(shù);
92、s3.6、基于測試集,分別獲取所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法的評估指標(biāo);
93、s3.7、基于評估指標(biāo)選取最優(yōu)算法。
94、進(jìn)一步,步驟s4,基于最優(yōu)算法和特征數(shù)據(jù)集,結(jié)合排列特征重要性分析和部分依賴圖pdp和shapley加法解釋方法用于模型解釋的方法,包括以下步驟:
95、s4.1、基于所述最優(yōu)算法和特征數(shù)據(jù)集的測試集,通過排列特征重要性分析確定對中度/重度牙周炎重要性排名前9的特征,其中排列特征重要性分析的計算步驟如下:
96、假設(shè)有一個訓(xùn)練好的模型f,一個測試集,其中,是特征向量,是目標(biāo)變量;
97、1)計算基準(zhǔn)性能
98、使用測試集d測計算模型的基準(zhǔn)性能s(如準(zhǔn)確率、均方誤差等):
99、;
100、2)打亂特征值
101、對于每個特征j,隨機打亂測試集中該特征的值,生成一個新的測試集d測(j):
102、;
103、其中,是將特征j的值隨機打亂后的特征向量;
104、3)計算打亂后的性能
105、使用打亂后的測試集d測(j)計算模型的性能s(j):
106、;
107、4)計算特征重要性
108、特征j的重要性ij定義為基準(zhǔn)性能與打亂后性能的差值:
109、;
110、如果較大,說明特征j對模型性能很重要;
111、如果較大,說明特征j對模型性能不重要。
112、s4.2、基于重要性排名前9的特征,確定其中的重金屬和多環(huán)芳烴變量;
113、s4.3、基于所述最優(yōu)算法和其中的重金屬和多環(huán)芳烴變量,利用部分依賴圖pdp分析這些變量的交互效應(yīng)以及它們與中度/重度牙周炎之間的關(guān)系,其中,部分依賴圖pdp計算步驟如下:
114、假設(shè)有一個訓(xùn)練好的模型f,一個特征向量;其中,p是特征的數(shù)量,對于某個特征,,部分依賴圖的定義如下:
115、部分依賴函數(shù)定義為:;
116、其中,是目標(biāo)特征;是除之外的其他特征;表示對的期望(即對其他特征取平均);
117、部分依賴圖估計:
118、在實際計算中,部分依賴函數(shù)通過以下步驟估計:
119、1.對于目標(biāo)特征xs的每個取值xs,生成一個新的數(shù)據(jù)集:;
120、其中,是數(shù)據(jù)集中第i個樣本的其他特征值;
121、2.使用模型f對進(jìn)行預(yù)測,得到預(yù)測值;
122、3.計算部分依賴函數(shù)的估計值:
123、;
124、4.對xs的所有取值重復(fù)上述步驟,繪制部分依賴圖。
125、s4.4、基于所述最優(yōu)算法和測試集,利用shapley加法解釋方法進(jìn)行個性化決策分析并顯示模型決策在預(yù)測中度/重度牙周炎后從全局角度進(jìn)行一系列變量變化,其中shapley加法解釋方法計算步驟如下:
126、假設(shè)有一個訓(xùn)練好的模型f,一個特征向量x=(x1,x2,…,xp),其中,p是特征的數(shù)量;沙普利值的定義如下:
127、特征子集:
128、設(shè)s是特征集合的一個子集,;設(shè)是模型在特征子集s上的預(yù)測值;
129、邊際貢獻(xiàn):
130、對于特征j,其邊際貢獻(xiàn)定義為:;
131、即加入特征j后,模型預(yù)測值變化,其中表示特征子集s加入特征j后形成一個新的子集;
132、沙普利值:
133、特征j的沙普利值定義為:
134、;
135、其中,是子集s的大?。皇菣?quán)重,表示子集s在所有可能子集中的出現(xiàn)概率。
136、本發(fā)明還公開了一種基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建系統(tǒng),用于執(zhí)行上述方法,包括如下模塊:
137、第一數(shù)據(jù)集獲取模塊:基于nhanes數(shù)據(jù)集,對nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,獲取第一數(shù)據(jù)集;
138、特征數(shù)據(jù)集獲取模塊:基于第一數(shù)據(jù)集,篩選第一數(shù)據(jù)集的特征,獲取特征數(shù)據(jù)集;
139、最優(yōu)算法選取模塊:基于獲取的特征數(shù)據(jù)集,訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法,測試比較評估指標(biāo),選取最優(yōu)算法;
140、模型解釋模塊:基于獲取的最優(yōu)算法和特征數(shù)據(jù)集,結(jié)合排列特征重要性分析、部分依賴圖和加法解釋方法解釋模型。
141、本發(fā)明融合機器學(xué)習(xí)具有高精度、快速處理和熟練分析復(fù)雜非線性模式的優(yōu)點,以及采用部分依賴圖(pdp)和shapley加法解釋(shap)等解釋方法來增強機器學(xué)習(xí)模型的可解釋性,從而能更好地了解重金屬、多環(huán)芳烴和中度/重度牙周炎之間的相關(guān)性,以分析關(guān)鍵環(huán)境變量與中度/重度牙周炎之間的非線性關(guān)系和協(xié)同效應(yīng)。