本申請涉及數(shù)據(jù)增強領(lǐng)域,且更為具體地,涉及一種大模型訓練數(shù)據(jù)增強方法。
背景技術(shù):
1、隨著人工智能技術(shù)的快速發(fā)展,大模型(如大規(guī)模預訓練語言模型、視覺模型等)在各類任務(wù)中展現(xiàn)出卓越的性能。然而,這些大模型的訓練通常依賴于海量且高質(zhì)量的訓練數(shù)據(jù)。由于真實世界中高質(zhì)量標注數(shù)據(jù)獲取成本高昂,且樣本分布可能存在偏差,如何通過數(shù)據(jù)增強手段擴充和豐富訓練集,提升模型泛化能力和魯棒性,成為當前大模型訓練領(lǐng)域亟需解決的重要問題。因此,構(gòu)建有效的大模型訓練數(shù)據(jù)增強方案,對于緩解數(shù)據(jù)稀缺、提升大模型性能具有重要意義。
2、目前,在大模型領(lǐng)域已有部分針對數(shù)據(jù)增強的探索。例如,通過回譯、同義替換、混合樣本等傳統(tǒng)方法進行文本或圖像的數(shù)據(jù)擴展;或者利用生成式ai對原始樣本進行改寫與擴充。這些方法雖然能夠一定程度上增加樣本多樣性,但往往存在如下不足:一方面,傳統(tǒng)的數(shù)據(jù)增強方式較為簡單,難以充分挖掘和保持原始語義結(jié)構(gòu);另一方面,即便采用生成式ai輔助生成新樣本,也容易出現(xiàn)語義漂移——即新生成的數(shù)據(jù)與原始任務(wù)需求之間產(chǎn)生了不可控的語義偏離,從而影響后續(xù)大模型的學習效果。此外,目前缺乏對增強后樣本與原始語料之間關(guān)系進行顯性建模和量化評估的方法,使得難以自動篩選出真正有助于提升模型能力的新樣本。
3、因此,期待一種優(yōu)化的大模型訓練數(shù)據(jù)增強方法。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,提出了本申請。本申請的實施例提供了一種大模型訓練數(shù)據(jù)增強方法,其首先以原始訓練樣本為基礎(chǔ),通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎(chǔ)上,引入結(jié)構(gòu)化編碼機制,將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量,并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應(yīng)表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設(shè)閾值之間的比較,實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。
2、根據(jù)本申請的一個方面,提供了一種大模型訓練數(shù)據(jù)增強方法,其包括:
3、獲取原始訓練樣本數(shù)據(jù)的集合;
4、從原始訓練樣本數(shù)據(jù)的集合隨機挑選一個原始訓練樣本數(shù)據(jù)作為增強樣本素材數(shù)據(jù);
5、將增強樣本素材數(shù)據(jù)輸入基于大模型的數(shù)據(jù)增強引擎以得到生成訓練樣本數(shù)據(jù);
6、對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行訓練樣本語義漂移查詢響應(yīng)分析以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量作為生成訓練樣本語義偏移度量表征;
7、基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數(shù)據(jù)視為合格訓練樣本數(shù)據(jù)。
8、與現(xiàn)有技術(shù)相比,本申請?zhí)峁┑囊环N大模型訓練數(shù)據(jù)增強方法,其首先以原始訓練樣本為基礎(chǔ),通過隨機挑選樣本并利用大模型生成新的訓練樣本,在此基礎(chǔ)上,引入結(jié)構(gòu)化編碼機制,將原始與生成樣本轉(zhuǎn)化為結(jié)構(gòu)化編碼向量,并對生成樣本與原始樣本之間的語義關(guān)系進行建模和量化,以獲得反映兩者語義差異程度的查詢響應(yīng)表征;進而,通過特征解碼得到語義漂移度估值,并基于該估值與預設(shè)閾值之間的比較,實現(xiàn)對生成數(shù)據(jù)是否合格的自動判別。通過這樣的方式,實現(xiàn)了對新舊訓練數(shù)據(jù)之間的語義一致性的精準評估,有效避免了因語義漂移導致的新數(shù)據(jù)偏離任務(wù)目標的問題,從而篩選出真正有助于提升模型泛化能力和魯棒性的高質(zhì)量增強樣本。
1.一種大模型訓練數(shù)據(jù)增強方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行訓練樣本語義漂移查詢響應(yīng)分析以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量作為生成訓練樣本語義偏移度量表征,包括:
3.根據(jù)權(quán)利要求2所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對原始訓練樣本數(shù)據(jù)的集合和生成訓練樣本數(shù)據(jù)進行結(jié)構(gòu)化編碼以得到原始訓練樣本結(jié)構(gòu)化編碼向量的集合和生成訓練樣本結(jié)構(gòu)化編碼向量,包括:
4.根據(jù)權(quán)利要求3所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,將查詢向量和原始訓練樣本結(jié)構(gòu)化編碼向量的集合輸入語義漂移顯性建模網(wǎng)絡(luò)以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量,包括:
5.根據(jù)權(quán)利要求4所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對原始訓練樣本特征濃縮編碼向量的集合進行基于門控機制的圖結(jié)構(gòu)編碼以得到原始訓練樣本特征仿圖譜編碼矩陣,包括:
6.根據(jù)權(quán)利要求5所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,將查詢向量和原始訓練樣本特征仿圖譜編碼矩陣輸入特征查詢響應(yīng)引擎以得到生成訓練樣本語義漂移查詢響應(yīng)編碼向量,包括:
7.根據(jù)權(quán)利要求1所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,基于生成訓練樣本語義偏移度量表征,確定是否將生成訓練樣本數(shù)據(jù)視為合格訓練樣本數(shù)據(jù),包括:
8.根據(jù)權(quán)利要求7所述的大模型訓練數(shù)據(jù)增強方法,其特征在于,對生成訓練樣本語義漂移查詢響應(yīng)編碼向量進行特征解碼以得到語義漂移度的估計值,包括: