大模型訓練數(shù)據(jù)增強方法與流程

文檔序號：42327292發(fā)布日期：2025-07-01 19:47閱讀：14來源：國知局

本申請涉及數(shù)據(jù)增強領(lǐng)域，且更為具體地，涉及一種大模型訓練數(shù)據(jù)增強方法。

背景技術(shù)：

1、隨著人工智能技術(shù)的快速發(fā)展，大模型（如大規(guī)模預訓練語言模型、視覺模型等）在各類任務(wù)中展現(xiàn)出卓越的性能。然而，這些大模型的訓練通常依賴于海量且高質(zhì)量的訓練數(shù)據(jù)。由于真實世界中高質(zhì)量標注數(shù)據(jù)獲取成本高昂，且樣本分布可能存在偏差，如何通過數(shù)據(jù)增強手段擴充和豐富訓練集，提升模型泛化能力和魯棒性，成為當前大模型訓練領(lǐng)域亟需解決的重要問題。因此，構(gòu)建有效的大模型訓練數(shù)據(jù)增強方案，對于緩解數(shù)據(jù)稀缺、提升大模型性能具有重要意義。

2、目前，在大模型領(lǐng)域已有部分針對數(shù)據(jù)增強的探索。例如，通過回譯、同義替換、混合樣本等傳統(tǒng)方法進行文本或圖像的數(shù)據(jù)擴展；或者利用生成式ai對原始樣本進行改寫與擴充。這些方法雖然能夠一定程度上增加樣本多樣性，但往往存在如下不足：一方面，傳統(tǒng)的數(shù)據(jù)增強方式較為簡單，難以充分挖掘和保持原始語義結(jié)構(gòu)；另一方面，即便采用生成式ai輔助生成新樣本，也容易出現(xiàn)語義漂移——即新生成的數(shù)據(jù)與原始任務(wù)需求之間產(chǎn)生了不可控的語義偏離，從而影響后續(xù)大模型的學習效果。此外，目前缺乏對增強后樣本與原始語料之間關(guān)系進行顯性建模和量化評估的方法，使得難以自動篩選出真正有助于提升模型能力的新樣本。

3、因此，期待一種優(yōu)化的大模型訓練數(shù)據(jù)增強方法。

技術(shù)實現(xiàn)思路

1、為了解決上述技術(shù)問題，提出了本申請。本申請的實施例提供了一種大模型訓練數(shù)據(jù)增強方法，其首先以原始訓練樣本為基礎(chǔ)，通過隨機挑選樣本并利用大模型生成新的訓練樣本，在此基礎(chǔ)上，引入結(jié)構(gòu)化編碼機制，將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量，并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化，以獲得反映兩者語義差異程度的查詢響應(yīng)表征；進而，通過特征解碼得到語義漂移度估值，并基于該估值與預設(shè)閾值之間的比較，實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式，實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估，有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題，從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。

2、根據(jù)本申請的一個方面，提供了一種大模型訓練數(shù)據(jù)增強方法，其包括：

3、獲取原始訓練樣本數(shù)據(jù)的集合；

4、從原始訓練樣本數(shù)據(jù)的集合隨機挑選一個原始訓練樣本數(shù)據(jù)作為增強樣本素材數(shù)據(jù)；

5、將增強樣本素材數(shù)據(jù)輸入基于大模型的數(shù)據(jù)增強引擎以得到生成訓練樣本數(shù)據(jù)；

6、對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行訓練樣本語義漂移查詢響應(yīng)分析以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量作為生成訓練樣本語義偏移度量表征；

7、基于生成訓練樣本語義偏移度量表征，確定是否將生成訓練樣本數(shù)據(jù)視為合格訓練樣本數(shù)據(jù)。

8、與現(xiàn)有技術(shù)相比，本申請?zhí)峁┑囊环N大模型訓練數(shù)據(jù)增強方法，其首先以原始訓練樣本為基礎(chǔ)，通過隨機挑選樣本并利用大模型生成新的訓練樣本，在此基礎(chǔ)上，引入結(jié)構(gòu)化編碼機制，將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量，并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化，以獲得反映兩者語義差異程度的查詢響應(yīng)表征；進而，通過特征解碼得到語義漂移度估值，并基于該估值與預設(shè)閾值之間的比較，實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式，實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估，有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題，從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。

技術(shù)特征：

1.一種大模型訓練數(shù)據(jù)增強方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行訓練樣本語義漂移查詢響應(yīng)分析以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量作為生成訓練樣本語義偏移度量表征，包括：

3.根據(jù)權(quán)利要求2所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行結(jié)構(gòu)化編碼以得到原始訓練樣本結(jié)構(gòu)化編碼向量的集合和生成訓練樣本結(jié)構(gòu)化編碼向量，包括：

4.根據(jù)權(quán)利要求3所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，將查詢向量和原始訓練樣本結(jié)構(gòu)化編碼向量的集合輸入語義漂移顯性建模網(wǎng)絡(luò)以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量，包括：

5.根據(jù)權(quán)利要求4所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，對原始訓練樣本特征濃縮編碼向量的集合進行基于門控機制的圖結(jié)構(gòu)編碼以得到原始訓練樣本特征仿圖譜編碼矩陣，包括：

6.根據(jù)權(quán)利要求5所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，將查詢向量和原始訓練樣本特征仿圖譜編碼矩陣輸入特征查詢響應(yīng)引擎以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量，包括：

7.根據(jù)權(quán)利要求1所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，基于生成訓練樣本語義偏移度量表征，確定是否將生成訓練樣本數(shù)據(jù)視為合格訓練樣本數(shù)據(jù)，包括：

8.根據(jù)權(quán)利要求7所述的大模型訓練數(shù)據(jù)增強方法，其特征在于，對生成訓練樣本語義漂移查詢響應(yīng)編碼向量進行特征解碼以得到語義漂移度的估計值，包括：

技術(shù)總結(jié)
本申請公開了一種大模型訓練數(shù)據(jù)增強方法，其首先以原始訓練樣本為基礎(chǔ)，通過隨機挑選樣本并利用大模型生成新的訓練樣本，在此基礎(chǔ)上，引入結(jié)構(gòu)化編碼機制，將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量，并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化，以獲得反映兩者語義差異程度的查詢響應(yīng)表征；進而，通過特征解碼得到語義漂移度估值，并基于該估值與預設(shè)閾值之間的比較，實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式，實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估，有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題，從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。

技術(shù)研發(fā)人員：齊紅威,何鴻凌,豐強澤,王大亮,高禹,鄭繼龍
受保護的技術(shù)使用者：數(shù)據(jù)堂（北京）科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/30

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：齊紅威,何鴻凌,豐強澤,王大亮,高禹,鄭繼龍
技術(shù)所有人：數(shù)據(jù)堂（北京）科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

大模型訓練數(shù)據(jù)增強方法與流程