本發(fā)明涉及多模態(tài)數(shù)據(jù)融合和自監(jiān)督學(xué)習(xí),具體涉及一種多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測方法及系統(tǒng)。
背景技術(shù):
1、藥物不良反應(yīng)(adverse?drug?reactions,?簡稱adrs)是指在確保藥品質(zhì)量合格、嚴(yán)格遵循藥物推薦的正常法與用量條件下,患者所遭遇的非預(yù)期且不利于健康的反應(yīng)。在藥物開發(fā)周期中,盡早發(fā)現(xiàn)潛在的不良反應(yīng),不僅可以顯著提高藥物的安全性,還能有效降低研發(fā)風(fēng)險與成本。
2、隨著生物醫(yī)學(xué)信息的豐富,使用計算機(jī)輔助預(yù)測adrs的研究已取得顯著進(jìn)展。在adrs預(yù)測中,藥物特征的提取與表征是模型性能的關(guān)鍵。常用的藥物特征主要分為兩類:(1)藥物內(nèi)在信息:包括藥物化學(xué)子結(jié)構(gòu)、分子描述符等,這些特征能夠直接反映藥物的化學(xué)性質(zhì)和生物學(xué)活性。(2)藥物相關(guān)實體信息:如藥物-靶點蛋白相互作用、藥物適應(yīng)癥和藥物途徑等,這些特征揭示了藥物在生物系統(tǒng)中的功能與潛在機(jī)制。藥物特征范圍從基礎(chǔ)的化學(xué)結(jié)構(gòu)逐步擴(kuò)到到包含藥物-藥物相似度,藥物-疾病關(guān)聯(lián)等多源信息。
3、計算機(jī)輔助方法主要分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法通常依賴于多種藥物特征,并通過構(gòu)建特征之間的相關(guān)性或相似性來預(yù)測不良反應(yīng)。雖然傳統(tǒng)機(jī)器學(xué)習(xí)方法在adrs預(yù)測中取得了一定成果,但其對先驗知識的依賴、特征提取的局限性以及泛化能力的不足限制了其進(jìn)一步發(fā)展。相比之下,深度學(xué)習(xí)技術(shù)具有自動特征提取和復(fù)雜關(guān)系建模等能力,展現(xiàn)出顯著的優(yōu)勢,逐漸成為adrs預(yù)測的研究熱點。現(xiàn)有基于深度學(xué)習(xí)的adrs預(yù)測方法大多數(shù)依賴于藥物關(guān)聯(lián)實體信息,忽略了藥物的內(nèi)在特征,并且容易面臨外源性數(shù)據(jù)缺失所導(dǎo)致的冷啟動困境。例如,中國專利文獻(xiàn)cn115512857a提出的一種基于元路徑圖神經(jīng)網(wǎng)絡(luò)的藥物不良反應(yīng)預(yù)測模型需要使用藥物、蛋白質(zhì)、不良反應(yīng)和疾病四種實體來構(gòu)建異構(gòu)信息網(wǎng)絡(luò)。這導(dǎo)致了這些方法更傾向于挖掘已知藥物的潛在未知不良反應(yīng),而非準(zhǔn)確預(yù)測全新藥物的風(fēng)險。在藥物發(fā)現(xiàn)的初始階段,候選藥物的先驗知識通常相對稀缺,研究者往往只能依賴有限的化學(xué)結(jié)構(gòu)屬性來構(gòu)建預(yù)測模型,這使得模型的性能受到極大限制。
4、同時,在多模態(tài)融合策略方面,現(xiàn)有的方法普遍存在靜態(tài)融合缺陷。例如,文獻(xiàn)《toward?unified?ai?drug?discovery?with?multimodal?knowledge》[j].?yizhen?luo,xing?yi?liu,?et?al.health?data?science.?2024.02.23.提出一種深度學(xué)習(xí)框架?kedd用于預(yù)測?adrs,該框架通過將藥物、蛋白質(zhì)、結(jié)構(gòu)化知識與非結(jié)構(gòu)化知識這四種模態(tài)特征進(jìn)行拼接(基于各模態(tài)對預(yù)測的貢獻(xiàn)相等的假設(shè))實現(xiàn)融合,忽略了不同模態(tài)間固有的功能異質(zhì)性。
5、多模態(tài)融合技術(shù)作為人工智能領(lǐng)域的關(guān)鍵突破方向,其核心目標(biāo)在于實現(xiàn)異構(gòu)數(shù)據(jù)特征的互補性整合與冗余性抑制。當(dāng)前研究在跨模態(tài)交互機(jī)制設(shè)計中面臨兩大核心挑戰(zhàn):(1)靜態(tài)融合方式的局限性:傳統(tǒng)方法(如直接拼接、均值融合或加權(quán)求和)普遍采用固定權(quán)重分配策略。這些靜態(tài)融合方式導(dǎo)致關(guān)鍵信息在融合過程中被稀釋,尤其難以處理序列模態(tài)(如文本、時間序列)與圖模態(tài)(如分子結(jié)構(gòu)、社交網(wǎng)絡(luò))間的表征差異。例如,中國專利文獻(xiàn)cn119091974a提出的基于序列模態(tài)和圖模態(tài)的藥物靶標(biāo)親和力預(yù)測方法的方案中,使用相加融合方式融合兩種模態(tài)的特征,無法動態(tài)適配不同模態(tài)的特征重要性層級。(2)單一融合機(jī)制的局限性:序列數(shù)據(jù)與圖模態(tài)數(shù)據(jù)在表征形式、特征維度以及內(nèi)在語義表達(dá)上存在顯著差異。現(xiàn)有的方法多采用單一的融合策略(如僅依賴注意力機(jī)制或張量拼接),往往無法充分捕捉模態(tài)間的高階交互關(guān)系和深層次語義關(guān)聯(lián),導(dǎo)致融合后的特征表達(dá)能力受限,難以適應(yīng)不同任務(wù)場景下模態(tài)特征的重要性變化。如中國專利文獻(xiàn)cn115878983a提出的基于多層次交互融合的多模態(tài)數(shù)據(jù)場景識別方法的方案中,對序列數(shù)據(jù)和視頻模態(tài)數(shù)據(jù)進(jìn)行交互融合,但方案使用多層多頭的自注意力網(wǎng)絡(luò)和雙階段注意力模型導(dǎo)致計算復(fù)雜度顯著增加,引入大量可學(xué)習(xí)參數(shù)導(dǎo)致該方法難以滿足毫秒級響應(yīng)需求。
6、綜上,現(xiàn)有技術(shù)公開的藥物不良反應(yīng)的預(yù)測方法無法動態(tài)捕捉藥物化學(xué)結(jié)構(gòu)中的不同模態(tài)的特征,也無法充分捕捉不同模態(tài)特征的潛在語義信息并進(jìn)行深層次的融合與交互,預(yù)測全面性、準(zhǔn)確性都受到較大的限制。因此亟待研發(fā)一種僅基于藥物內(nèi)在信息且具有創(chuàng)新性的藥物不同模態(tài)特征融合交互機(jī)制實現(xiàn)adrs預(yù)測方法。
技術(shù)實現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題是:提供一種多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測方法與系統(tǒng)。其目的在于采用一種全新的雙通路融合交互機(jī)制,動態(tài)捕捉并融合藥物化學(xué)結(jié)構(gòu)中的局部官能團(tuán)和全局特征。通過自監(jiān)督學(xué)習(xí)捕捉不良反應(yīng)類別的潛在語義信息,從而實現(xiàn)協(xié)同預(yù)測adrs概率。
2、為了解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供一種多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測方法,具體包括如下步驟:
4、s1、多源異構(gòu)模態(tài)特征提取與表征優(yōu)化,面向多源異構(gòu)數(shù)據(jù)構(gòu)建特征工程;藥物相關(guān)的多源異構(gòu)數(shù)據(jù)包括:藥物smiles序列數(shù)據(jù)、藥物分子指紋數(shù)據(jù)和藥物分子結(jié)構(gòu)圖數(shù)據(jù);方案中,藥物smiles序列和藥物分子指紋為藥物相關(guān)的序列數(shù)據(jù)模態(tài);藥物的分子結(jié)構(gòu)圖為藥物相關(guān)的圖數(shù)據(jù)模態(tài)。
5、s2、雙通路融合交互協(xié)同預(yù)測,具體包括:
6、s21、構(gòu)建雙通路:構(gòu)建門控深度卷積的空間融合模塊(gated?depthwiseconvolution?with?spatial?fusion,簡稱為gdconv-sf模塊)作為第一通路,其目的是為了實現(xiàn)空間上的局部特征融合;構(gòu)建均值策略作為第二通路,其目的是為了減少噪聲和冗余信息的影響;
7、s22、雙通路交互:先對經(jīng)過第一通路融合后的特征進(jìn)行自注意力計算,其目的是為了建立特征內(nèi)部的長程依賴關(guān)系,增強表征能力;然后采用兩個單向交叉注意力機(jī)制用于捕捉經(jīng)過不同通路融合后的多源異構(gòu)模態(tài)特征之間的注意力權(quán)重和反饋信息,實現(xiàn)模態(tài)間的交互;
8、s23、協(xié)同預(yù)測:將s22獲得的模態(tài)特征進(jìn)行層歸一化與多層感知機(jī)層處理,結(jié)果作為多源異構(gòu)模態(tài)融合交互后的編碼;通過自監(jiān)督學(xué)習(xí)捕捉藥物不良反應(yīng)類別的潛在語義信息,構(gòu)建藥物不良反應(yīng)嵌入矩陣,然后與融合交互后的編碼結(jié)果進(jìn)行匹配,最終輸出預(yù)測的概率。
9、進(jìn)一步地,s21中的門控深度卷積的空間融合模塊(gdconv-sf模塊)包括以下結(jié)構(gòu):
10、第一線性層,用于對輸入特征進(jìn)行初步線性變換,其目的是為了后續(xù)深度卷積層提供更精確的特征表達(dá);
11、特征分裂層,用于沿特征維度將線性變換后的特征拆分為兩個子特征塊,其目的是為了使得模型能夠分別處理不同的特征表示,從而捕捉更細(xì)粒度的局部信息;
12、深度卷積層,用于對其中一個子特征塊進(jìn)行深度卷積操作,其目的是為了捕捉不同模態(tài)特征之間的局部關(guān)聯(lián)性,實現(xiàn)空間上的局部特征融合;
13、動態(tài)門控殘差,用于將另一個子特征塊與深度卷積層的輸出分別經(jīng)過silu函數(shù)激活后,進(jìn)行逐元素相乘,其目的是為了動態(tài)調(diào)節(jié)殘差對最終輸出的影響;
14、第二線性層,用于對經(jīng)過動態(tài)門控殘差連接的特征進(jìn)行線性變換,生成最終的輸出表示。
15、進(jìn)一步地,門控深度卷積的空間融合模塊(gdconv-sf模塊)通過如下表達(dá)式實現(xiàn):
16、子特征塊1,子特征塊2?=?特征分裂(linearl(input));
17、子特征塊1?=?activation(reshape(深度卷積(reshape(子特征塊1))));
18、子特征塊?2?=?activation(子特征塊?2);
19、output?=?linear2(multiply(子特征塊1,子特征塊?2))。
20、上式中,activation表示silu激活函數(shù),multiply表示逐元素相乘,linear1和linear2分別表示兩個不同的線性層。
21、進(jìn)一步地,步驟23中所述的藥物不良反應(yīng)嵌入矩陣的構(gòu)建方法為:每個藥物不良反應(yīng)的嵌入為初始均值0、標(biāo)準(zhǔn)差0.1的標(biāo)準(zhǔn)化隨機(jī)向量,最后的嵌入矩陣維度為[不良反應(yīng)數(shù),8×隱藏層維度];作為一個可學(xué)習(xí)參數(shù),可在訓(xùn)練過程中進(jìn)行參數(shù)更新。
22、由于不良反應(yīng)的真實標(biāo)簽并未直接用于訓(xùn)練,因此通過嵌入矩陣可以捕捉不良反應(yīng)類別的潛在語義信息。
23、進(jìn)一步地,s23中具體是通過矩陣乘法計算多源異構(gòu)模態(tài)融合后的特征與每個不良反應(yīng)的相關(guān)性,經(jīng)過sigmoid函數(shù)將內(nèi)積映射為一個介于0-1之間的小數(shù),最終輸出預(yù)測的概率。
24、進(jìn)一步地,s1中多源異構(gòu)模態(tài)特征提取包括:
25、s11、線性符號向量化:具體是通過分子子結(jié)構(gòu)向量表示方法對藥物smiles序列進(jìn)行線性符號向量化。
26、進(jìn)一步地,s1中多源異構(gòu)模態(tài)特征提取還包括:
27、s12、分子指紋嵌入:是指對藥物分子指紋編碼并進(jìn)行多分辨率信號處理。
28、具體是基于十六進(jìn)制字符映射的位壓縮算法將傳統(tǒng)1024位的藥物分子指紋轉(zhuǎn)換為256位緊湊編碼,并結(jié)合離散小波變換(簡稱dwt)進(jìn)行多分辨率信號處理。為了突破符號編碼在特征分辨能力上的限制,引入的dwt驅(qū)動的多分辨率信號處理策略,能夠達(dá)成特征空間維度縮減與關(guān)鍵化學(xué)信息保留的平衡優(yōu)化。
29、更進(jìn)一步地,步驟s12中十六進(jìn)制字符映射的位壓縮算法包括以下步驟:(1)將1024位二值分子指紋按16進(jìn)制字符重新分組,壓縮為64個十六進(jìn)制字符;(2)對每個十六進(jìn)制字符進(jìn)行熵值加權(quán)編碼,生成256位緊湊向量。
30、進(jìn)一步地,s1中多源異構(gòu)模態(tài)特征提取還包括:
31、s13、采用不同的圖嵌入模型對藥物分子結(jié)構(gòu)圖進(jìn)行多角度拓?fù)渚幋a,其目的是為了從不同角度編碼分子結(jié)構(gòu)圖特征,各自聚焦于特定結(jié)構(gòu)層次。優(yōu)選采用attentive?fp、mpnn和nfgnn三種圖嵌入模型對藥物分子結(jié)構(gòu)圖進(jìn)行多角度拓?fù)渚幋a。
32、進(jìn)一步地,s1還包括通過雙向門控循環(huán)單元(bidirectional?gated?recurrentunit,簡稱b-gru)對s11-s13提取的各模態(tài)特征進(jìn)行表征優(yōu)化,其目的是為了捕獲雙向語境依賴關(guān)系。
33、雙向門控循環(huán)單元(b-gru)是一種基于門控機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),通過前向-反向聯(lián)合建模能夠有效捕獲序列數(shù)據(jù)中潛在的雙向語境依賴(如分子結(jié)構(gòu)潛在的上下文關(guān)系)。相較于其他序列編碼器,b-gru在處理較短序列數(shù)據(jù)時可通過門控狀態(tài)共享機(jī)制顯著降低時序計算復(fù)雜度。
34、第二方面,本發(fā)明還提供一種多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測系統(tǒng),包括處理器和存儲器,其中所述存儲器上存儲有計算機(jī)程序代碼指令;
35、當(dāng)所述計算機(jī)程序代碼指令被所述處理器所調(diào)用時,使得所述處理器執(zhí)行如上所述的多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測方法。
36、本發(fā)明提供的多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測方及系統(tǒng)的應(yīng)用場景包括:藥物研發(fā)階段的安全性評價;處方藥批準(zhǔn)上市后的潛在不良反應(yīng)監(jiān)測。
37、本發(fā)明中的名詞解釋:
38、mol2vec(unsupervised?machine?learning?approach?with?chemicalintuition)是一種無監(jiān)督機(jī)器學(xué)習(xí)方法,用于生成分子子結(jié)構(gòu)的向量表示。
39、?attentive?fp(pushing?the?boundaries?of?molecular?representation?fordrug?discovery?with?the?graph?attention?mechanism)?是一種基于圖注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型,主要用于分子表征和藥物發(fā)現(xiàn)。采用注意力機(jī)制動態(tài)分配原子間的交互權(quán)重,可定位關(guān)鍵藥效團(tuán)(如酶活性中心的關(guān)鍵結(jié)合基團(tuán)),但其局部特征偏好可能弱化分子整體拓?fù)涞姆夯碚鳌?/p>
40、?mpnn(message?passing?neural?networks)是一種圖神經(jīng)網(wǎng)絡(luò)(gnn)框架,專門用于處理圖結(jié)構(gòu)數(shù)據(jù)?。通過多輪消息傳遞隱式聚合全局鄰域信息,可模擬長程化學(xué)作用對物化性質(zhì)(如logp)的影響,但容易忽視官能團(tuán)、環(huán)系統(tǒng)等子結(jié)構(gòu)的顯著性信號。
41、nfgnn(convolutional?networks?on?graphs?for?learning?molecularfingerprints)是一種基于圖卷積神經(jīng)網(wǎng)絡(luò)(gcn)的分子表示學(xué)習(xí)方法。該方法可以直接處理分子結(jié)構(gòu)圖,并通過端到端的學(xué)習(xí)生成具有化學(xué)意義的分子表示。通過分層卷積顯式提取預(yù)設(shè)半徑的鄰域特征,能直接匹配已知毒性數(shù)據(jù)庫中的結(jié)構(gòu)警報(如硝基芳環(huán)的基因毒性風(fēng)險),但其固定半徑的鄰域劃分難以適應(yīng)動態(tài)構(gòu)象變化。
42、本發(fā)明具有如下有益效果:
43、本發(fā)明提供一種多源異構(gòu)模態(tài)雙通路融合交互的藥物不良反應(yīng)預(yù)測方法及系統(tǒng)。所述方法包括多源異構(gòu)模態(tài)特征提取與表征優(yōu)化和雙通路融合交互協(xié)同預(yù)測兩個階段,在多源異構(gòu)模態(tài)特征提取與表征優(yōu)化階段面向多源異構(gòu)數(shù)據(jù)構(gòu)建特征工程,然后在雙通路融合交互協(xié)同預(yù)測階段實現(xiàn)多源異構(gòu)模態(tài)間的層級式融合與跨模態(tài)交互學(xué)習(xí)。
44、本發(fā)明僅利用藥物的化學(xué)結(jié)構(gòu)屬性作為輸入,通過提出的gdconv-sf?模塊構(gòu)建了線性序列-空間分布的多視角復(fù)合嵌入空間,能夠?qū)崿F(xiàn)序列向量和拓?fù)渚幋a內(nèi)在信息的互補。本發(fā)明設(shè)計的雙通路融合交互機(jī)制能夠動態(tài)融合局部官能團(tuán)和全局特征,實現(xiàn)不同模態(tài)數(shù)據(jù)間高效的信息交互和協(xié)同優(yōu)化。最終,基于融合交互后的特征表示與不良反應(yīng)嵌入的匹配程度實現(xiàn)跨模態(tài)協(xié)同預(yù)測。
45、本發(fā)明實現(xiàn)簡單,操作簡便。與最新的adrs預(yù)測方法相比,本發(fā)明僅以24.85%的參數(shù)量實現(xiàn)了性能指標(biāo)的超越,輕量級的同時較大地提升了性能指標(biāo)。本發(fā)明具有突破傳統(tǒng)實驗數(shù)據(jù)局限的潛力,可用于挖掘已批準(zhǔn)的臨床藥物中尚未觀察到的不良反應(yīng)。對于超過70%的藥物使用本方法得到的預(yù)測結(jié)果,相關(guān)研究人員可以通過有限的人工校驗環(huán)節(jié)進(jìn)行結(jié)果精煉,提升最終輸出結(jié)果的臨床適用性。本方法輕量級的架構(gòu)更能滿足實時藥物安全性篩查對延遲的嚴(yán)格要求。