欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)

文檔序號:42132273發(fā)布日期:2025-06-10 17:27閱讀:18來源:國知局

本技術(shù)屬于牙周炎預(yù)測模型,具體涉及基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。


背景技術(shù):

1、牙周炎是一種全球范圍內(nèi)常見且不可逆的持續(xù)性炎癥,對口腔結(jié)締組織產(chǎn)生不利影響,損害牙齒支撐結(jié)構(gòu),最終導(dǎo)致牙齒脫落。除了對口腔健康的有害影響外,牙周炎還會引發(fā)輕度全身性炎癥,隨著時間的推移,這種炎癥可能會引發(fā)或加劇各種持續(xù)性炎癥,包括心血管疾?。ㄈ绺哐獕海?、糖尿病和阿爾茨海默病等。

2、大量研究闡明了長期接觸重金屬和多環(huán)芳烴與牙周炎風(fēng)險升高之間的密切關(guān)聯(lián),但重金屬和多環(huán)芳烴與牙周炎之間錯綜復(fù)雜的非線性聯(lián)系對傳統(tǒng)線性統(tǒng)計方法的應(yīng)用構(gòu)成了巨大挑戰(zhàn),并且重金屬與多環(huán)芳烴之間的協(xié)同效應(yīng)仍然存在爭議。基于此,本發(fā)明使用可解釋的機器學(xué)習(xí)方法來了解重金屬、多環(huán)芳烴和中度/重度牙周炎之間的相關(guān)性,提出一種基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。


技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)忽略重金屬和多環(huán)芳烴與牙周炎之間的非線性關(guān)系以及重金屬和多環(huán)芳烴之間的協(xié)同效應(yīng),本發(fā)明提供了一種基于可解釋性機器學(xué)習(xí)的環(huán)境重金屬和多環(huán)芳烴暴露下中度/重度牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。

2、為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:

3、基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法,包括以下步驟:

4、s1、基于nhanes數(shù)據(jù)集,對所述nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,獲取第一數(shù)據(jù)集;

5、s2、基于所述第一數(shù)據(jù)集,篩選所述第一數(shù)據(jù)集的特征,獲取特征數(shù)據(jù)集;

6、s3、基于特征數(shù)據(jù)集,訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰共5種算法,測試比較多個評估指標(biāo),選取最優(yōu)算法;

7、s4、基于最優(yōu)算法和特征數(shù)據(jù)集,結(jié)合排列特征重要性分析、部分依賴圖和加法解釋方法解釋模型。

8、nhanes數(shù)據(jù)集是美國疾病控制與預(yù)防中心下屬的國家衛(wèi)生統(tǒng)計中心開展的一項全國性調(diào)查項目。它是一個綜合性的公共衛(wèi)生數(shù)據(jù)庫,包含了美國人口的健康、營養(yǎng)和疾病狀況的詳細(xì)信息。

9、進(jìn)一步,步驟s1中,基于nhanes數(shù)據(jù)集,對所述nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,獲取第一數(shù)據(jù)集的方法,具體包括以下步驟:

10、s1.1、基于所述nhanes數(shù)據(jù)集,獲取x0個特征以及多個樣本;

11、s1.2、基于所述樣本,排除不符合標(biāo)準(zhǔn)的樣本;

12、s1.3、處理變量,獲取第一數(shù)據(jù)集。

13、進(jìn)一步,步驟s2中,基于所述第一數(shù)據(jù)集,利用lasso回歸和方差膨脹因子(vif)方法篩選所述第一數(shù)據(jù)集的特征,獲取特征數(shù)據(jù)集的方法,包括以下步驟:

14、s2.1、基于所述第一數(shù)據(jù)集,對重金屬和多環(huán)芳烴變量進(jìn)行對數(shù)變換;

15、s2.2、通過lasso回歸模型識別與牙周炎風(fēng)險相關(guān)的重金屬和多環(huán)芳烴變量,其中,lasso回歸模型的目標(biāo)是最小化以下?lián)p失函數(shù):

16、;

17、其中,是第i個觀測值的實際值;n是樣本數(shù)量;p是特征的數(shù)量;是正則化參數(shù),控制正則化的強度;是第j個特征的系數(shù);

18、是第i個觀測值的預(yù)測值,計算公式為:

19、;

20、其中,是截距項;,,…,是特征的系數(shù);,,…,是第i個觀測值的特征值;

21、s2.3、基于選好后的重金屬和多環(huán)芳烴變量以及協(xié)變量,采用方差膨脹系數(shù)vif評估變量之間的多重共線性,計算vif的步驟包括;

22、1.構(gòu)建線性回歸模型:將其中一個自變量xj作為因變量,其它自變量,,…,,,…,作為自變量,構(gòu)建一個線性回歸模型:

23、;

24、其中,是誤差項;是截距項;,,…,,…是回歸系數(shù);

25、2.計算輔助回歸模型的判定系數(shù):

26、是輔助回歸模型的擬合優(yōu)度,表示其它自變量對xj的解釋能力。

27、的取值范圍是[0,?1],值越大說明xj與其他自變量的線性關(guān)系越強。

28、計算總平方和tss:

29、;

30、其中,表示第i個樣本的xj值;表示xj的均值;

31、計算殘差平方和rss:

32、;

33、其中,表示輔助回歸模型對第i個樣本的預(yù)測值;

34、計算決定系數(shù):

35、;

36、3.計算vif:

37、對于自變量xj,其vif值計算公式為:

38、;

39、如果=0(即xj與其他自變量完全無關(guān)),則;

40、如果接近1(即xj與其他自變量高度相關(guān)),則趨近于無窮大。

41、s2.4、如果有變量的vif值大于等于10,需要逐一刪除vif值最高的變量,重新計算vif,直到所有vif值低于10,從而獲得特征數(shù)據(jù)集。

42、進(jìn)一步,步驟s3中,基于特征數(shù)據(jù)集,訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰共5種算法,測試比較多個評估指標(biāo),選取最優(yōu)算法的方法,包括以下步驟:

43、s3.1、基于所述特征數(shù)據(jù)集,對分類變量進(jìn)行獨熱編碼處理;

44、s3.2、基于處理后的特征數(shù)據(jù)集,按照特定比例將所述特征數(shù)據(jù)集中的樣本分為測試集和訓(xùn)練集;

45、s3.3、基于所述訓(xùn)練集,分別對所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法進(jìn)行訓(xùn)練,其中隨機森林的構(gòu)建過程如下:

46、1.構(gòu)建多棵決策樹

47、對于每棵樹t,t=1,2,…,t進(jìn)行自助法采樣和訓(xùn)練決策樹;其中,自助法采樣:從訓(xùn)練集d訓(xùn)中隨機抽取n個樣本(有放回),形成新的子集dt;訓(xùn)練決策樹:使用子集dt訓(xùn)練一棵決策樹;

48、在樹的每個節(jié)點分裂時,隨機選擇m個特征(m通常為總特征數(shù)的平方根),從中選擇最佳分裂點;

49、2.綜合預(yù)測效果

50、對于分類問題,即對所有樹的預(yù)測結(jié)果進(jìn)行投票,選擇票數(shù)最多的類別;

51、其中支持向量機的構(gòu)建過程如下:

52、設(shè)一個二分類問題,數(shù)據(jù)集為,其中,是特征向量,是目標(biāo)變量;目標(biāo)是找到一個,其中,是權(quán)重向量,是輸入特征向量,是偏差,使得:

53、所有正類樣本滿足;

54、所有負(fù)類樣本滿足;

55、分類間隔(兩個支持超平面之間的距離)最大化;

56、其中決策樹的構(gòu)建過程如下:

57、1)對于數(shù)據(jù)集d,計算其信息熵:

58、,其中,d是數(shù)據(jù)集;k是類別數(shù)量;pi是第i個類別的比例;

59、2)對于每個特征a,計算其信息增益;

60、,其中,a為特征;values(a)是特征a的所有可能取值;dv是特征a取值為v的子集;

61、3)選擇信息增益最大的特征作為當(dāng)前節(jié)點的劃分特征;

62、4)根據(jù)選擇的特征,將數(shù)據(jù)集d劃分為多個子集dv;

63、5)對于每個子集dv,遞歸地重復(fù)上述步驟1)-步驟4),直到滿足停止條件(包括節(jié)點內(nèi)樣本全部屬于同一類;節(jié)點內(nèi)樣本數(shù)小于預(yù)設(shè)閾值;樹的深度達(dá)到預(yù)設(shè)值);

64、當(dāng)滿足停止條件時,生成葉節(jié)點并返回類別;

65、其中,梯度提升樹的構(gòu)建過程如下:

66、假設(shè)有一個數(shù)據(jù)集,其中,xi是特征向量,yi是目標(biāo)變量;

67、1)初始化模型:

68、初始化模型為一個常數(shù)模型:;

69、其中,是損失函數(shù),對于均方誤差,是目標(biāo)變量的均值,是模型的預(yù)測值,通常是一個常數(shù)或一個函數(shù);

70、2)迭代構(gòu)建樹:

71、對于每一步m=1,2,…,m:

72、計算殘差:對于每個樣本i,計算殘差:;

73、擬合殘差:使用殘差作為目標(biāo)變量,訓(xùn)練一顆新的決策樹hm(x);

74、更新模型:將新樹的預(yù)測結(jié)果與當(dāng)前模型的預(yù)測結(jié)果相加:

75、;

76、其中,v是學(xué)習(xí)率(通常為?0.1?或?0.01),用于控制每棵樹的貢獻(xiàn);

77、3)組合模型:

78、最終模型為:;

79、其中,k最近鄰算法的構(gòu)建過程如下:

80、1)計算距離:

81、對于目標(biāo)樣本x,計算它與訓(xùn)練集中每個樣本xi的閔可夫斯基距離;

82、閔可夫斯基距離:;

83、其中,是目標(biāo)樣本x第j個特征上的取值、是訓(xùn)練樣本xi第j個特征上的取值,z表示閔可夫斯基距離的冪參數(shù),默認(rèn)為2;

84、2)選擇最近的k個鄰居:

85、根據(jù)計算的閔可夫斯基距離,選擇與目標(biāo)樣本x最近的k個訓(xùn)練樣本;

86、3)投票或加權(quán):

87、對k個鄰居的類別進(jìn)行投票,選擇票數(shù)最多的類別作為目標(biāo)樣本的預(yù)測類別;

88、4)輸出結(jié)果:

89、返回目標(biāo)樣本的預(yù)測類別。

90、s3.4、基于所述訓(xùn)練集,分別對所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法進(jìn)行5折交叉驗證;

91、s3.5、基于網(wǎng)格搜索算法,獲取所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法的最優(yōu)超參數(shù);

92、s3.6、基于測試集,分別獲取所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法的評估指標(biāo);

93、s3.7、基于評估指標(biāo)選取最優(yōu)算法。

94、進(jìn)一步,步驟s4,基于最優(yōu)算法和特征數(shù)據(jù)集,結(jié)合排列特征重要性分析和部分依賴圖pdp和shapley加法解釋方法用于模型解釋的方法,包括以下步驟:

95、s4.1、基于所述最優(yōu)算法和特征數(shù)據(jù)集的測試集,通過排列特征重要性分析確定對中度/重度牙周炎重要性排名前9的特征,其中排列特征重要性分析的計算步驟如下:

96、假設(shè)有一個訓(xùn)練好的模型f,一個測試集,其中,是特征向量,是目標(biāo)變量;

97、1)計算基準(zhǔn)性能

98、使用測試集d測計算模型的基準(zhǔn)性能s(如準(zhǔn)確率、均方誤差等):

99、;

100、2)打亂特征值

101、對于每個特征j,隨機打亂測試集中該特征的值,生成一個新的測試集d測(j):

102、;

103、其中,是將特征j的值隨機打亂后的特征向量;

104、3)計算打亂后的性能

105、使用打亂后的測試集d測(j)計算模型的性能s(j):

106、;

107、4)計算特征重要性

108、特征j的重要性ij定義為基準(zhǔn)性能與打亂后性能的差值:

109、;

110、如果較大,說明特征j對模型性能很重要;

111、如果較大,說明特征j對模型性能不重要。

112、s4.2、基于重要性排名前9的特征,確定其中的重金屬和多環(huán)芳烴變量;

113、s4.3、基于所述最優(yōu)算法和其中的重金屬和多環(huán)芳烴變量,利用部分依賴圖pdp分析這些變量的交互效應(yīng)以及它們與中度/重度牙周炎之間的關(guān)系,其中,部分依賴圖pdp計算步驟如下:

114、假設(shè)有一個訓(xùn)練好的模型f,一個特征向量;其中,p是特征的數(shù)量,對于某個特征,,部分依賴圖的定義如下:

115、部分依賴函數(shù)定義為:;

116、其中,是目標(biāo)特征;是除之外的其他特征;表示對的期望(即對其他特征取平均);

117、部分依賴圖估計:

118、在實際計算中,部分依賴函數(shù)通過以下步驟估計:

119、1.對于目標(biāo)特征xs的每個取值xs,生成一個新的數(shù)據(jù)集:;

120、其中,是數(shù)據(jù)集中第i個樣本的其他特征值;

121、2.使用模型f對進(jìn)行預(yù)測,得到預(yù)測值;

122、3.計算部分依賴函數(shù)的估計值:

123、;

124、4.對xs的所有取值重復(fù)上述步驟,繪制部分依賴圖。

125、s4.4、基于所述最優(yōu)算法和測試集,利用shapley加法解釋方法進(jìn)行個性化決策分析并顯示模型決策在預(yù)測中度/重度牙周炎后從全局角度進(jìn)行一系列變量變化,其中shapley加法解釋方法計算步驟如下:

126、假設(shè)有一個訓(xùn)練好的模型f,一個特征向量x=(x1,x2,…,xp),其中,p是特征的數(shù)量;沙普利值的定義如下:

127、特征子集:

128、設(shè)s是特征集合的一個子集,;設(shè)是模型在特征子集s上的預(yù)測值;

129、邊際貢獻(xiàn):

130、對于特征j,其邊際貢獻(xiàn)定義為:;

131、即加入特征j后,模型預(yù)測值變化,其中表示特征子集s加入特征j后形成一個新的子集;

132、沙普利值:

133、特征j的沙普利值定義為:

134、;

135、其中,是子集s的大?。皇菣?quán)重,表示子集s在所有可能子集中的出現(xiàn)概率。

136、本發(fā)明還公開了一種基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建系統(tǒng),用于執(zhí)行上述方法,包括如下模塊:

137、第一數(shù)據(jù)集獲取模塊:基于nhanes數(shù)據(jù)集,對nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,獲取第一數(shù)據(jù)集;

138、特征數(shù)據(jù)集獲取模塊:基于第一數(shù)據(jù)集,篩選第一數(shù)據(jù)集的特征,獲取特征數(shù)據(jù)集;

139、最優(yōu)算法選取模塊:基于獲取的特征數(shù)據(jù)集,訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法,測試比較評估指標(biāo),選取最優(yōu)算法;

140、模型解釋模塊:基于獲取的最優(yōu)算法和特征數(shù)據(jù)集,結(jié)合排列特征重要性分析、部分依賴圖和加法解釋方法解釋模型。

141、本發(fā)明融合機器學(xué)習(xí)具有高精度、快速處理和熟練分析復(fù)雜非線性模式的優(yōu)點,以及采用部分依賴圖(pdp)和shapley加法解釋(shap)等解釋方法來增強機器學(xué)習(xí)模型的可解釋性,從而能更好地了解重金屬、多環(huán)芳烴和中度/重度牙周炎之間的相關(guān)性,以分析關(guān)鍵環(huán)境變量與中度/重度牙周炎之間的非線性關(guān)系和協(xié)同效應(yīng)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1