欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

大模型訓練數(shù)據(jù)增強方法與流程

文檔序號:42327292發(fā)布日期:2025-07-01 19:47閱讀:14來源:國知局

本申請涉及數(shù)據(jù)增強領(lǐng)域,且更為具體地,涉及一種大模型訓練數(shù)據(jù)增強方法。


背景技術(shù):

1、隨著人工智能技術(shù)的快速發(fā)展,大模型(如大規(guī)模預訓練語言模型、視覺模型等)在各類任務(wù)中展現(xiàn)出卓越的性能。然而,這些大模型的訓練通常依賴于海量且高質(zhì)量的訓練數(shù)據(jù)。由于真實世界中高質(zhì)量標注數(shù)據(jù)獲取成本高昂,且樣本分布可能存在偏差,如何通過數(shù)據(jù)增強手段擴充和豐富訓練集,提升模型泛化能力和魯棒性,成為當前大模型訓練領(lǐng)域亟需解決的重要問題。因此,構(gòu)建有效的大模型訓練數(shù)據(jù)增強方案,對于緩解數(shù)據(jù)稀缺、提升大模型性能具有重要意義。

2、目前,在大模型領(lǐng)域已有部分針對數(shù)據(jù)增強的探索。例如,通過回譯、同義替換、混合樣本等傳統(tǒng)方法進行文本或圖像的數(shù)據(jù)擴展;或者利用生成式ai對原始樣本進行改寫與擴充。這些方法雖然能夠一定程度上增加樣本多樣性,但往往存在如下不足:一方面,傳統(tǒng)的數(shù)據(jù)增強方式較為簡單,難以充分挖掘和保持原始語義結(jié)構(gòu);另一方面,即便采用生成式ai輔助生成新樣本,也容易出現(xiàn)語義漂移——即新生成的數(shù)據(jù)與原始任務(wù)需求之間產(chǎn)生了不可控的語義偏離,從而影響后續(xù)大模型的學習效果。此外,目前缺乏對增強后樣本與原始語料之間關(guān)系進行顯性建模和量化評估的方法,使得難以自動篩選出真正有助于提升模型能力的新樣本。

3、因此,期待一種優(yōu)化的大模型訓練數(shù)據(jù)增強方法。


技術(shù)實現(xiàn)思路

1、為了解決上述技術(shù)問題,提出了本申請。本申請的實施例提供了一種大模型訓練數(shù)據(jù)增強方法,其首先以原始訓練樣本為基礎(chǔ),通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎(chǔ)上,引入結(jié)構(gòu)化編碼機制,將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量,并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應(yīng)表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設(shè)閾值之間的比較,實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。

2、根據(jù)本申請的一個方面,提供了一種大模型訓練數(shù)據(jù)增強方法,其包括:

3、獲取原始訓練樣本數(shù)據(jù)的集合;

4、從原始訓練樣本數(shù)據(jù)的集合隨機挑選一個原始訓練樣本數(shù)據(jù)作為增強樣本素材數(shù)據(jù);

5、將增強樣本素材數(shù)據(jù)輸入基于大模型的數(shù)據(jù)增強引擎以得到生成訓練樣本數(shù)據(jù);

6、對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行訓練樣本語義漂移查詢響應(yīng)分析以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量作為生成訓練樣本語義偏移度量表征;

7、基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數(shù)據(jù)視為合格訓練樣本數(shù)據(jù)。

8、與現(xiàn)有技術(shù)相比,本申請?zhí)峁┑囊环N大模型訓練數(shù)據(jù)增強方法,其首先以原始訓練樣本為基礎(chǔ),通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎(chǔ)上,引入結(jié)構(gòu)化編碼機制,將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量,并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應(yīng)表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設(shè)閾值之間的比較,實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。



技術(shù)特征:

1.一種大模型訓練數(shù)據(jù)增強方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行訓練樣本語義漂移查詢響應(yīng)分析以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量作為生成訓練樣本語義偏移度量表征,包括:

3.根據(jù)權(quán)利要求2所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行結(jié)構(gòu)化編碼以得到原始訓練樣本結(jié)構(gòu)化編碼向量的集合和生成訓練樣本結(jié)構(gòu)化編碼向量,包括:

4.根據(jù)權(quán)利要求3所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,將查詢向量和原始訓練樣本結(jié)構(gòu)化編碼向量的集合輸入語義漂移顯性建模網(wǎng)絡(luò)以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量,包括:

5.根據(jù)權(quán)利要求4所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對原始訓練樣本特征濃縮編碼向量的集合進行基于門控機制的圖結(jié)構(gòu)編碼以得到原始訓練樣本特征仿圖譜編碼矩陣,包括:

6.根據(jù)權(quán)利要求5所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,將查詢向量和原始訓練樣本特征仿圖譜編碼矩陣輸入特征查詢響應(yīng)引擎以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量,包括:

7.根據(jù)權(quán)利要求1所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數(shù)據(jù)視為合格訓練樣本數(shù)據(jù),包括:

8.根據(jù)權(quán)利要求7所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對生成訓練樣本語義漂移查詢響應(yīng)編碼向量進行特征解碼以得到語義漂移度的估計值,包括:


技術(shù)總結(jié)
本申請公開了一種大模型訓練數(shù)據(jù)增強方法,其首先以原始訓練樣本為基礎(chǔ),通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎(chǔ)上,引入結(jié)構(gòu)化編碼機制,將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量,并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應(yīng)表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設(shè)閾值之間的比較,實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。

技術(shù)研發(fā)人員:齊紅威,何鴻凌,豐強澤,王大亮,高禹,鄭繼龍
受保護的技術(shù)使用者:數(shù)據(jù)堂(北京)科技股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/6/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1