基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)

文檔序號：42132273發(fā)布日期：2025-06-10 17:27閱讀：18來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>醫(yī)藥醫(yī)療技術(shù)的改進(jìn);醫(yī)療器械制造及應(yīng)用技術(shù)

本技術(shù)屬于牙周炎預(yù)測模型，具體涉及基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。

背景技術(shù)：

1、牙周炎是一種全球范圍內(nèi)常見且不可逆的持續(xù)性炎癥，對口腔結(jié)締組織產(chǎn)生不利影響，損害牙齒支撐結(jié)構(gòu)，最終導(dǎo)致牙齒脫落。除了對口腔健康的有害影響外，牙周炎還會引發(fā)輕度全身性炎癥，隨著時間的推移，這種炎癥可能會引發(fā)或加劇各種持續(xù)性炎癥，包括心血管疾?。ㄈ绺哐獕海?、糖尿病和阿爾茨海默病等。

2、大量研究闡明了長期接觸重金屬和多環(huán)芳烴與牙周炎風(fēng)險升高之間的密切關(guān)聯(lián),但重金屬和多環(huán)芳烴與牙周炎之間錯綜復(fù)雜的非線性聯(lián)系對傳統(tǒng)線性統(tǒng)計方法的應(yīng)用構(gòu)成了巨大挑戰(zhàn)，并且重金屬與多環(huán)芳烴之間的協(xié)同效應(yīng)仍然存在爭議。基于此，本發(fā)明使用可解釋的機器學(xué)習(xí)方法來了解重金屬、多環(huán)芳烴和中度/重度牙周炎之間的相關(guān)性，提出一種基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。

技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)忽略重金屬和多環(huán)芳烴與牙周炎之間的非線性關(guān)系以及重金屬和多環(huán)芳烴之間的協(xié)同效應(yīng)，本發(fā)明提供了一種基于可解釋性機器學(xué)習(xí)的環(huán)境重金屬和多環(huán)芳烴暴露下中度/重度牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)。

2、為解決上述技術(shù)問題，本發(fā)明采用的技術(shù)方案如下：

3、基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法，包括以下步驟：

4、s1、基于nhanes數(shù)據(jù)集，對所述nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，獲取第一數(shù)據(jù)集；

5、s2、基于所述第一數(shù)據(jù)集，篩選所述第一數(shù)據(jù)集的特征，獲取特征數(shù)據(jù)集；

6、s3、基于特征數(shù)據(jù)集，訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰共5種算法，測試比較多個評估指標(biāo)，選取最優(yōu)算法；

7、s4、基于最優(yōu)算法和特征數(shù)據(jù)集，結(jié)合排列特征重要性分析、部分依賴圖和加法解釋方法解釋模型。

8、nhanes數(shù)據(jù)集是美國疾病控制與預(yù)防中心下屬的國家衛(wèi)生統(tǒng)計中心開展的一項全國性調(diào)查項目。它是一個綜合性的公共衛(wèi)生數(shù)據(jù)庫，包含了美國人口的健康、營養(yǎng)和疾病狀況的詳細(xì)信息。

9、進(jìn)一步，步驟s1中，基于nhanes數(shù)據(jù)集，對所述nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，獲取第一數(shù)據(jù)集的方法，具體包括以下步驟：

10、s1.1、基于所述nhanes數(shù)據(jù)集，獲取x0個特征以及多個樣本；

11、s1.2、基于所述樣本，排除不符合標(biāo)準(zhǔn)的樣本；

12、s1.3、處理變量，獲取第一數(shù)據(jù)集。

13、進(jìn)一步，步驟s2中，基于所述第一數(shù)據(jù)集，利用lasso回歸和方差膨脹因子（vif）方法篩選所述第一數(shù)據(jù)集的特征，獲取特征數(shù)據(jù)集的方法，包括以下步驟：

14、s2.1、基于所述第一數(shù)據(jù)集，對重金屬和多環(huán)芳烴變量進(jìn)行對數(shù)變換；

15、s2.2、通過lasso回歸模型識別與牙周炎風(fēng)險相關(guān)的重金屬和多環(huán)芳烴變量，其中，lasso回歸模型的目標(biāo)是最小化以下?lián)p失函數(shù)：

16、；

17、其中，是第i個觀測值的實際值；n是樣本數(shù)量；p是特征的數(shù)量；是正則化參數(shù)，控制正則化的強度；是第j個特征的系數(shù)；

18、是第i個觀測值的預(yù)測值，計算公式為：

19、；

20、其中，是截距項；,,…,是特征的系數(shù)；,,…,是第i個觀測值的特征值；

21、s2.3、基于選好后的重金屬和多環(huán)芳烴變量以及協(xié)變量，采用方差膨脹系數(shù)vif評估變量之間的多重共線性，計算vif的步驟包括；

22、1.構(gòu)建線性回歸模型：將其中一個自變量xj作為因變量，其它自變量,,…,,,…,作為自變量，構(gòu)建一個線性回歸模型：

23、；

24、其中，是誤差項；是截距項；,,…,,…是回歸系數(shù)；

25、2.計算輔助回歸模型的判定系數(shù)：

26、是輔助回歸模型的擬合優(yōu)度，表示其它自變量對xj的解釋能力。

27、的取值范圍是[0,?1]，值越大說明xj與其他自變量的線性關(guān)系越強。

28、計算總平方和tss：

29、；

30、其中，表示第i個樣本的xj值；表示xj的均值；

31、計算殘差平方和rss：

32、；

33、其中，表示輔助回歸模型對第i個樣本的預(yù)測值；

34、計算決定系數(shù)：

35、；

36、3.計算vif：

37、對于自變量xj，其vif值計算公式為：

38、；

39、如果=0（即xj與其他自變量完全無關(guān)），則；

40、如果接近1（即xj與其他自變量高度相關(guān)），則趨近于無窮大。

41、s2.4、如果有變量的vif值大于等于10，需要逐一刪除vif值最高的變量，重新計算vif，直到所有vif值低于10，從而獲得特征數(shù)據(jù)集。

42、進(jìn)一步，步驟s3中，基于特征數(shù)據(jù)集，訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰共5種算法，測試比較多個評估指標(biāo)，選取最優(yōu)算法的方法，包括以下步驟：

43、s3.1、基于所述特征數(shù)據(jù)集，對分類變量進(jìn)行獨熱編碼處理；

44、s3.2、基于處理后的特征數(shù)據(jù)集，按照特定比例將所述特征數(shù)據(jù)集中的樣本分為測試集和訓(xùn)練集；

45、s3.3、基于所述訓(xùn)練集，分別對所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法進(jìn)行訓(xùn)練，其中隨機森林的構(gòu)建過程如下：

46、1.構(gòu)建多棵決策樹

47、對于每棵樹t，t=1,2,…,t進(jìn)行自助法采樣和訓(xùn)練決策樹；其中，自助法采樣：從訓(xùn)練集d訓(xùn)中隨機抽取n個樣本（有放回），形成新的子集dt；訓(xùn)練決策樹：使用子集dt訓(xùn)練一棵決策樹；

48、在樹的每個節(jié)點分裂時，隨機選擇m個特征（m通常為總特征數(shù)的平方根），從中選擇最佳分裂點；

49、2.綜合預(yù)測效果

50、對于分類問題，即對所有樹的預(yù)測結(jié)果進(jìn)行投票，選擇票數(shù)最多的類別；

51、其中支持向量機的構(gòu)建過程如下：

52、設(shè)一個二分類問題，數(shù)據(jù)集為，其中，是特征向量，是目標(biāo)變量；目標(biāo)是找到一個，其中，是權(quán)重向量，是輸入特征向量，是偏差，使得：

53、所有正類樣本滿足；

54、所有負(fù)類樣本滿足；

55、分類間隔（兩個支持超平面之間的距離）最大化；

56、其中決策樹的構(gòu)建過程如下：

57、1）對于數(shù)據(jù)集d，計算其信息熵：

58、，其中，d是數(shù)據(jù)集；k是類別數(shù)量；pi是第i個類別的比例；

59、2）對于每個特征a，計算其信息增益；

60、，其中，a為特征；values(a)是特征a的所有可能取值；dv是特征a取值為v的子集；

61、3）選擇信息增益最大的特征作為當(dāng)前節(jié)點的劃分特征；

62、4）根據(jù)選擇的特征，將數(shù)據(jù)集d劃分為多個子集dv；

63、5）對于每個子集dv，遞歸地重復(fù)上述步驟1）-步驟4），直到滿足停止條件（包括節(jié)點內(nèi)樣本全部屬于同一類；節(jié)點內(nèi)樣本數(shù)小于預(yù)設(shè)閾值；樹的深度達(dá)到預(yù)設(shè)值）；

64、當(dāng)滿足停止條件時，生成葉節(jié)點并返回類別；

65、其中，梯度提升樹的構(gòu)建過程如下：

66、假設(shè)有一個數(shù)據(jù)集，其中，xi是特征向量，yi是目標(biāo)變量；

67、1）初始化模型：

68、初始化模型為一個常數(shù)模型：；

69、其中，是損失函數(shù)，對于均方誤差，是目標(biāo)變量的均值，是模型的預(yù)測值，通常是一個常數(shù)或一個函數(shù)；

70、2）迭代構(gòu)建樹：

71、對于每一步m=1,2,…,m：

72、計算殘差：對于每個樣本i，計算殘差：；

73、擬合殘差：使用殘差作為目標(biāo)變量，訓(xùn)練一顆新的決策樹hm(x)；

74、更新模型：將新樹的預(yù)測結(jié)果與當(dāng)前模型的預(yù)測結(jié)果相加：

75、；

76、其中，v是學(xué)習(xí)率（通常為?0.1?或?0.01），用于控制每棵樹的貢獻(xiàn)；

77、3）組合模型：

78、最終模型為：；

79、其中，k最近鄰算法的構(gòu)建過程如下：

80、1）計算距離：

81、對于目標(biāo)樣本x，計算它與訓(xùn)練集中每個樣本xi的閔可夫斯基距離；

82、閔可夫斯基距離：；

83、其中，是目標(biāo)樣本x第j個特征上的取值、是訓(xùn)練樣本xi第j個特征上的取值，z表示閔可夫斯基距離的冪參數(shù)，默認(rèn)為2；

84、2）選擇最近的k個鄰居：

85、根據(jù)計算的閔可夫斯基距離，選擇與目標(biāo)樣本x最近的k個訓(xùn)練樣本；

86、3）投票或加權(quán)：

87、對k個鄰居的類別進(jìn)行投票，選擇票數(shù)最多的類別作為目標(biāo)樣本的預(yù)測類別；

88、4）輸出結(jié)果：

89、返回目標(biāo)樣本的預(yù)測類別。

90、s3.4、基于所述訓(xùn)練集，分別對所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法進(jìn)行5折交叉驗證；

91、s3.5、基于網(wǎng)格搜索算法，獲取所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法的最優(yōu)超參數(shù)；

92、s3.6、基于測試集,分別獲取所述隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法的評估指標(biāo)；

93、s3.7、基于評估指標(biāo)選取最優(yōu)算法。

94、進(jìn)一步，步驟s4，基于最優(yōu)算法和特征數(shù)據(jù)集，結(jié)合排列特征重要性分析和部分依賴圖pdp和shapley加法解釋方法用于模型解釋的方法，包括以下步驟：

95、s4.1、基于所述最優(yōu)算法和特征數(shù)據(jù)集的測試集，通過排列特征重要性分析確定對中度/重度牙周炎重要性排名前9的特征，其中排列特征重要性分析的計算步驟如下：

96、假設(shè)有一個訓(xùn)練好的模型f，一個測試集，其中，是特征向量，是目標(biāo)變量；

97、1）計算基準(zhǔn)性能

98、使用測試集d測計算模型的基準(zhǔn)性能s（如準(zhǔn)確率、均方誤差等）：

99、；

100、2）打亂特征值

101、對于每個特征j，隨機打亂測試集中該特征的值，生成一個新的測試集d測（j）：

102、；

103、其中，是將特征j的值隨機打亂后的特征向量；

104、3）計算打亂后的性能

105、使用打亂后的測試集d測(j)計算模型的性能s(j)：

106、；

107、4）計算特征重要性

108、特征j的重要性ij定義為基準(zhǔn)性能與打亂后性能的差值：

109、；

110、如果較大，說明特征j對模型性能很重要；

111、如果較大，說明特征j對模型性能不重要。

112、s4.2、基于重要性排名前9的特征，確定其中的重金屬和多環(huán)芳烴變量；

113、s4.3、基于所述最優(yōu)算法和其中的重金屬和多環(huán)芳烴變量，利用部分依賴圖pdp分析這些變量的交互效應(yīng)以及它們與中度/重度牙周炎之間的關(guān)系，其中，部分依賴圖pdp計算步驟如下：

114、假設(shè)有一個訓(xùn)練好的模型f，一個特征向量；其中，p是特征的數(shù)量，對于某個特征，，部分依賴圖的定義如下：

115、部分依賴函數(shù)定義為：；

116、其中，是目標(biāo)特征；是除之外的其他特征；表示對的期望（即對其他特征取平均）；

117、部分依賴圖估計：

118、在實際計算中，部分依賴函數(shù)通過以下步驟估計：

119、1.對于目標(biāo)特征xs的每個取值xs，生成一個新的數(shù)據(jù)集：；

120、其中，是數(shù)據(jù)集中第i個樣本的其他特征值；

121、2.使用模型f對進(jìn)行預(yù)測，得到預(yù)測值；

122、3.計算部分依賴函數(shù)的估計值：

123、；

124、4.對xs的所有取值重復(fù)上述步驟，繪制部分依賴圖。

125、s4.4、基于所述最優(yōu)算法和測試集，利用shapley加法解釋方法進(jìn)行個性化決策分析并顯示模型決策在預(yù)測中度/重度牙周炎后從全局角度進(jìn)行一系列變量變化，其中shapley加法解釋方法計算步驟如下：

126、假設(shè)有一個訓(xùn)練好的模型f，一個特征向量x=(x1,x2,…,xp)，其中，p是特征的數(shù)量；沙普利值的定義如下：

127、特征子集：

128、設(shè)s是特征集合的一個子集，；設(shè)是模型在特征子集s上的預(yù)測值；

129、邊際貢獻(xiàn)：

130、對于特征j，其邊際貢獻(xiàn)定義為：；

131、即加入特征j后，模型預(yù)測值變化，其中表示特征子集s加入特征j后形成一個新的子集；

132、沙普利值：

133、特征j的沙普利值定義為：

134、；

135、其中，是子集s的大?。皇菣?quán)重，表示子集s在所有可能子集中的出現(xiàn)概率。

136、本發(fā)明還公開了一種基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建系統(tǒng)，用于執(zhí)行上述方法，包括如下模塊：

137、第一數(shù)據(jù)集獲取模塊：基于nhanes數(shù)據(jù)集，對nhanes數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，獲取第一數(shù)據(jù)集；

138、特征數(shù)據(jù)集獲取模塊：基于第一數(shù)據(jù)集，篩選第一數(shù)據(jù)集的特征，獲取特征數(shù)據(jù)集；

139、最優(yōu)算法選取模塊：基于獲取的特征數(shù)據(jù)集，訓(xùn)練隨機森林、支持向量機、決策樹、梯度提升樹和k最近鄰五種算法，測試比較評估指標(biāo)，選取最優(yōu)算法；

140、模型解釋模塊：基于獲取的最優(yōu)算法和特征數(shù)據(jù)集，結(jié)合排列特征重要性分析、部分依賴圖和加法解釋方法解釋模型。

141、本發(fā)明融合機器學(xué)習(xí)具有高精度、快速處理和熟練分析復(fù)雜非線性模式的優(yōu)點，以及采用部分依賴圖（pdp）和shapley加法解釋（shap）等解釋方法來增強機器學(xué)習(xí)模型的可解釋性，從而能更好地了解重金屬、多環(huán)芳烴和中度/重度牙周炎之間的相關(guān)性，以分析關(guān)鍵環(huán)境變量與中度/重度牙周炎之間的非線性關(guān)系和協(xié)同效應(yīng)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周文豪,沈潔
技術(shù)所有人：杭州電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、司老師：1.制漿造紙 2.植物資源精細(xì)化工與化學(xué) 3.生物質(zhì)精煉 4.天然產(chǎn)物化學(xué)
2、薛老師：1.CRISPR-Cas系統(tǒng) 2.基因編輯 3.基因修復(fù) 4.天然產(chǎn)物合成 5.單分子技術(shù)開發(fā)與應(yīng)用
3、戴老師：1.天然藥物（中藥）合成生物學(xué)研究 2.酵母生物學(xué)與工程化研究
4、孟老師：1. 基于糖類的抗腫瘤藥物的合成和活性評價及糖類疫苗的研制 2.功能糖類的化學(xué)酶法合成及構(gòu)效關(guān)系研究 3.多糖及仿生材料功能的開發(fā)及應(yīng)用
5、滿老師：1.天然產(chǎn)品的提取分離與活性研究 2.天然產(chǎn)物活性與安全性評價 3.中藥組方配伍機制研究
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

基于重金屬和多環(huán)芳烴的牙周炎預(yù)測模型構(gòu)建方法及系統(tǒng)