本公開涉及用于語音辨識的半監(jiān)督訓(xùn)練方案。
背景技術(shù):
1、自動語音辨識(asr)系統(tǒng)試圖通過獲取音頻輸入并將該音頻輸入轉(zhuǎn)錄為文本來提供對人們所說內(nèi)容的準(zhǔn)確轉(zhuǎn)錄。在許多情況下,監(jiān)督學(xué)習(xí)用于用包括音頻數(shù)據(jù)和對應(yīng)的轉(zhuǎn)錄的大量標(biāo)記的訓(xùn)練數(shù)據(jù)來訓(xùn)練asr系統(tǒng)。然而,因為與收集大的標(biāo)記的訓(xùn)練數(shù)據(jù)集相關(guān)聯(lián)的所需的時間量、成本、和/或隱私問題,獲得訓(xùn)練asr系統(tǒng)所需的大量標(biāo)記的訓(xùn)練數(shù)據(jù)常常是困難的。使用僅包括音頻數(shù)據(jù)的未標(biāo)記的訓(xùn)練數(shù)據(jù)來訓(xùn)練asr系統(tǒng)可以減輕收集大量標(biāo)記的訓(xùn)練數(shù)據(jù)的困難中的一些困難。
技術(shù)實現(xiàn)思路
1、本公開的一個方面提供了一種用于訓(xùn)練語音辨識模型的交叉訓(xùn)練網(wǎng)絡(luò)。該交叉訓(xùn)練網(wǎng)絡(luò)包括在多個未標(biāo)記的音頻樣本上訓(xùn)練的無監(jiān)督子網(wǎng)絡(luò),該多個未標(biāo)記的音頻樣本與未與對應(yīng)的轉(zhuǎn)錄配對的口頭話語相對應(yīng)。無監(jiān)督子網(wǎng)絡(luò)包括目標(biāo)分支,該目標(biāo)分支被配置為:接收從未標(biāo)記的音頻樣本中提取的聲學(xué)幀的序列作為到語音辨識模型的監(jiān)督音頻編碼器的輸入;以及在多個輸出步中的每個輸出步處,生成在對應(yīng)的輸出步處輸入到監(jiān)督音頻編碼器的聲學(xué)幀的序列中的對應(yīng)的聲學(xué)幀的目標(biāo)高階特征表示。無監(jiān)督子網(wǎng)絡(luò)還包括增強(qiáng)分支,該增強(qiáng)分支被配置為:通過掩蔽聲學(xué)幀的序列中的一個或多個聲學(xué)幀來增強(qiáng)從未標(biāo)記的音頻樣本中提取的聲學(xué)幀的序列;以及在多個輸出步中的每個輸出步處,生成增強(qiáng)的聲學(xué)幀的序列中的對應(yīng)的增強(qiáng)的聲學(xué)幀的預(yù)測的高階特征表示,作為來自語音辨識模型的無監(jiān)督音頻編碼器的輸出。無監(jiān)督子網(wǎng)絡(luò)被配置為:在多個輸出步中的每個輸出步處,基于由目標(biāo)分支在對應(yīng)的輸出步處生成的目標(biāo)高階特征表示以及由增強(qiáng)分支在對應(yīng)的輸出步處生成的預(yù)測的高階特征表示來確定無監(jiān)督損失項;以及基于在多個輸出步中的每個輸出步處確定的無監(jiān)督損失項來更新語音辨識模型的參數(shù)。
2、本公開的實現(xiàn)方式可以包括以下可選特征中的一個或多個可選特征。在一些實現(xiàn)方式中,無監(jiān)督損失項包括對比損失項。在一些示例中,無監(jiān)督子網(wǎng)絡(luò)還被配置為:在多個輸出步中的每個輸出步處,確定無監(jiān)督音頻編碼器的參數(shù)與監(jiān)督音頻編碼器的參數(shù)之間的基于距離的損失項,并且更新語音辨識模型的參數(shù)還基于在多個輸出步中的每個輸出步處確定的基于距離的損失項。這里,基于距離的損失項可以是l2損失。在這些示例中,基于無監(jiān)督損失項來更新語音辨識模型的參數(shù)與基于基于距離的損失項來更新語音辨識模型的參數(shù)聯(lián)合地發(fā)生。
3、在一些實現(xiàn)方式中,交叉訓(xùn)練網(wǎng)絡(luò)還包括在多個標(biāo)記的音頻樣本上訓(xùn)練的監(jiān)督子網(wǎng)絡(luò),該多個標(biāo)記的音頻樣本與和對應(yīng)的轉(zhuǎn)錄配對的口頭話語相對應(yīng)。在這些實現(xiàn)方式中,在多個輸出步中的每個輸出步處針對每個標(biāo)記的樣本,監(jiān)督子網(wǎng)絡(luò)被配置為:使用語音辨識模型來生成標(biāo)記的音頻樣本的對應(yīng)的語音辨識結(jié)果;以及基于由目標(biāo)分支在對應(yīng)的輸出步處生成的目標(biāo)高階特征表示以及由增強(qiáng)分支在對應(yīng)的輸出步處生成的預(yù)測的高階特征表示來確定監(jiān)督損失項。這里,監(jiān)督子網(wǎng)絡(luò)基于在多個輸出步中的每個輸出步處針對多個標(biāo)記的音頻樣本中的每個標(biāo)記的音頻樣本確定的監(jiān)督損失項來更新語音辨識模型的參數(shù)。在這些實現(xiàn)方式中,使用語音辨識模型針對標(biāo)記的音頻樣本生成的對應(yīng)的語音辨識結(jié)果包括對應(yīng)的輸出步處針對標(biāo)記的音頻樣本的可能語音辨識假設(shè)的概率分布。監(jiān)督子網(wǎng)絡(luò)還可以被配置為:基于監(jiān)督損失項,與無監(jiān)督網(wǎng)絡(luò)基于無監(jiān)督損失項和基于距離的損失項更新語音辨識模型的參數(shù)聯(lián)合地更新語音辨識的參數(shù)。
4、目標(biāo)分支還可以被配置為對對應(yīng)的增強(qiáng)的聲學(xué)幀的預(yù)測的高階特征表示應(yīng)用停止梯度操作。在一些示例中,無監(jiān)督音頻編碼器的參數(shù)和監(jiān)督音頻編碼器的參數(shù)是用相同的初始參數(shù)來初始化的。在其他示例中,無監(jiān)督音頻編碼器的參數(shù)和監(jiān)督音頻編碼器的參數(shù)是用不同的初始參數(shù)來初始化的。無監(jiān)督音頻編碼器和監(jiān)督音頻編碼器中的每一者包括相應(yīng)的全場境編碼器或相應(yīng)的級聯(lián)的編碼器中的至少一者。
5、本公開的另一個方面提供了一種計算機(jī)實現(xiàn)的方法,該計算機(jī)實現(xiàn)的方法當(dāng)在數(shù)據(jù)處理硬件上被執(zhí)行時致使該數(shù)據(jù)處理硬件執(zhí)行用于使用交叉訓(xùn)練網(wǎng)絡(luò)來訓(xùn)練語音辨識模型的操作。操作包括接收從未標(biāo)記的音頻樣本中提取的聲學(xué)幀的序列,該未標(biāo)記的音頻樣本與未與任何轉(zhuǎn)錄配對的口頭話語相對應(yīng)。在交叉訓(xùn)練網(wǎng)絡(luò)的目標(biāo)分支處,操作包括:在多個輸出步處使用語音辨識模型的監(jiān)督音頻編碼器來生成聲學(xué)幀的序列中的對應(yīng)的聲學(xué)幀的目標(biāo)高階特征表示。在交叉訓(xùn)練網(wǎng)絡(luò)的增強(qiáng)分支處,操作包括:通過掩蔽聲學(xué)幀的序列中的一個或多個聲學(xué)幀來增強(qiáng)從未標(biāo)記的音頻樣本中提取的聲學(xué)幀的序列;以及在多個輸出步中的每個輸出步處,生成增強(qiáng)的聲學(xué)幀的序列中的對應(yīng)的增強(qiáng)的聲學(xué)幀的預(yù)測的高階特征表示,作為來自語音辨識模型的無監(jiān)督音頻編碼器的輸出。操作還包括:在多個輸出步中的每個輸出步處,基于由目標(biāo)分支在對應(yīng)的輸出步處生成的目標(biāo)高階特征表示以及由增強(qiáng)分支在對應(yīng)的輸出步處生成的預(yù)測的高階特征表示來確定無監(jiān)督損失項。操作還包括:基于在多個輸出步中的每個輸出步處確定的無監(jiān)督損失項來更新語音辨識模型的參數(shù)。
6、本公開的實現(xiàn)方式可以包括以下可選特征中的一個或多個可選特征。在一些實現(xiàn)方式中,無監(jiān)督損失項包括對比損失項。在一些示例中,操作還包括:在多個輸出步中的每個輸出步處,確定無監(jiān)督音頻編碼器的參數(shù)與監(jiān)督音頻編碼器的參數(shù)之間的基于距離的損失項,并且更新語音辨識模型的參數(shù)還基于在多個輸出步中的每個輸出步處確定的基于距離的損失項。這里,基于距離的損失項可以包括l2損失。在這些示例中,基于無監(jiān)督損失項來更新語音辨識模型的參數(shù)與基于基于距離的損失項來更新語音辨識模型的參數(shù)聯(lián)合地發(fā)生。
7、在一些實現(xiàn)方式中,操作還包括接收與和對應(yīng)的轉(zhuǎn)錄配對的口頭話語相對應(yīng)的多個標(biāo)記的音頻樣本。在這些實現(xiàn)方式中,在多個輸出步中的每個輸出步處針對每個標(biāo)記的音頻樣本,操作還包括:使用語音辨識模型來生成標(biāo)記的音頻樣本的對應(yīng)的語音辨識結(jié)果,以及基于標(biāo)記的音頻樣本的對應(yīng)的語音辨識結(jié)果和標(biāo)記的音頻樣本的對應(yīng)的轉(zhuǎn)錄來確定監(jiān)督損失項。這里,操作還包括:基于在多個輸出步中的每個輸出步處針對多個標(biāo)記的音頻樣本中的每個標(biāo)記的音頻樣本確定的監(jiān)督損失項來更新語音辨識模型的參數(shù)。使用語音辨識模型針對標(biāo)記的音頻樣本生成的對應(yīng)的語音辨識結(jié)果可以包括對應(yīng)的輸出步處針對標(biāo)記的音頻樣本的可能語音辨識假設(shè)的概率分布?;诒O(jiān)督損失項來更新語音辨識模型的參數(shù)可以與基于無監(jiān)督損失項和基于距離的損失項來更新語音辨識模型的參數(shù)聯(lián)合地發(fā)生。
8、在一些示例中,操作還包括:對對應(yīng)的增強(qiáng)的聲學(xué)幀的預(yù)測的高階特征表示應(yīng)用停止梯度操作。在一些實現(xiàn)方式中,無監(jiān)督音頻編碼器的參數(shù)和監(jiān)督音頻編碼器的參數(shù)是用相同的初始參數(shù)來初始化的。在其他實現(xiàn)方式中,無監(jiān)督音頻編碼器的參數(shù)和監(jiān)督音頻編碼器的參數(shù)是用不同的初始參數(shù)來初始化的。無監(jiān)督音頻編碼器和監(jiān)督音頻編碼器中的每一者可以包括相應(yīng)的全場境編碼器或相應(yīng)的級聯(lián)的編碼器中的至少一者。
9、本公開的一個或多個實現(xiàn)方式的細(xì)節(jié)在附圖和下面的描述中進(jìn)行闡述。根據(jù)說明書和附圖以及權(quán)利要求,其他方面、特征和優(yōu)點將顯而易見。
1.一種用于訓(xùn)練語音辨識模型(200)的交叉訓(xùn)練網(wǎng)絡(luò)(300),所述交叉訓(xùn)練網(wǎng)絡(luò)(300)包括在多個未標(biāo)記的音頻樣本(303)上訓(xùn)練的無監(jiān)督子網(wǎng)絡(luò)(302),所述多個未標(biāo)記的音頻樣本與未與對應(yīng)的轉(zhuǎn)錄(120)配對的口頭話語(106)相對應(yīng),所述無監(jiān)督子網(wǎng)絡(luò)(302)包括:
2.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述無監(jiān)督損失項(330)包括對比損失項。
3.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中:
4.根據(jù)權(quán)利要求3所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述基于距離的損失項包括l2損失。
5.根據(jù)權(quán)利要求3所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中基于所述無監(jiān)督損失項(330)來更新所述語音辨識模型(200)的所述參數(shù)與基于所述基于距離的損失項來更新所述語音辨識模型(200)的所述參數(shù)聯(lián)合地發(fā)生。
6.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),還包括在多個標(biāo)記的音頻樣本(305)上訓(xùn)練的監(jiān)督子網(wǎng)絡(luò)(301),所述多個標(biāo)記的音頻樣本與和對應(yīng)的轉(zhuǎn)錄(120)配對的口頭話語(106)相對應(yīng),所述監(jiān)督子網(wǎng)絡(luò)(301)被配置為:
7.根據(jù)權(quán)利要求6所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中使用所述語音辨識模型(200)針對所述標(biāo)記的音頻樣本(305)生成的所述對應(yīng)的語音辨識結(jié)果(342)包括在所述對應(yīng)的輸出步處針對所述標(biāo)記的音頻樣本(305)的可能語音辨識假設(shè)的概率分布。
8.根據(jù)權(quán)利要求6所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述監(jiān)督子網(wǎng)絡(luò)(301)還被配置為:基于所述監(jiān)督損失項(350),與所述無監(jiān)督網(wǎng)絡(luò)基于所述無監(jiān)督損失項(330)和基于距離的損失項更新所述語音辨識模型(200)的所述參數(shù)聯(lián)合地更新所述語音辨識模型(200)的所述參數(shù)。
9.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述目標(biāo)分支(310)還被配置為對所述對應(yīng)的增強(qiáng)的聲學(xué)幀(304)的所述預(yù)測的高階特征表示(218)應(yīng)用停止梯度操作(314)。
10.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述無監(jiān)督音頻編碼器(216)的所述參數(shù)和所述監(jiān)督音頻編碼器(212)的所述參數(shù)是用相同的初始參數(shù)來初始化的。
11.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述無監(jiān)督音頻編碼器(216)的所述參數(shù)和所述監(jiān)督音頻編碼器(212)的所述參數(shù)是用不同的初始參數(shù)來初始化的。
12.根據(jù)權(quán)利要求1所述的交叉訓(xùn)練網(wǎng)絡(luò)(300),其中所述無監(jiān)督音頻編碼器(216)和所述監(jiān)督音頻編碼器(212)中的每一者包括以下中的至少一者:
13.一種計算機(jī)實現(xiàn)的方法(400),所述計算機(jī)實現(xiàn)的方法當(dāng)在數(shù)據(jù)處理硬件(510)上被執(zhí)行時致使所述數(shù)據(jù)處理硬件(510)執(zhí)行操作,所述操作包括:
14.根據(jù)權(quán)利要求13所述的計算機(jī)實現(xiàn)的方法(400),其中所述無監(jiān)督損失項(330)包括對比損失項。
15.根據(jù)權(quán)利要求13或14所述的計算機(jī)實現(xiàn)的方法(400),其中所述操作還包括:
16.根據(jù)權(quán)利要求15所述的計算機(jī)實現(xiàn)的方法(400),其中所述基于距離的損失項包括l2損失。
17.根據(jù)權(quán)利要求15或16所述的計算機(jī)實現(xiàn)的方法(400),其中基于所述無監(jiān)督損失項(330)來更新所述語音辨識模型(200)的參數(shù)與基于所述基于距離的損失項來更新所述語音辨識模型(200)的所述參數(shù)聯(lián)合地發(fā)生。
18.根據(jù)權(quán)利要求13至17中任一項所述的計算機(jī)實現(xiàn)的方法(400),其中所述操作還包括:
19.根據(jù)權(quán)利要求18所述的計算機(jī)實現(xiàn)的方法(400),其中使用所述語音辨識模型(200)針對所述標(biāo)記的音頻樣本(305)生成的所述對應(yīng)的語音辨識結(jié)果(342)包括在所述對應(yīng)的輸出步處針對所述標(biāo)記的音頻樣本(305)的可能語音辨識假設(shè)的概率分布。
20.根據(jù)權(quán)利要求18或19所述的計算機(jī)實現(xiàn)的方法(400),其中基于所述監(jiān)督損失項(350)來更新所述語音辨識模型(200)的參數(shù)與基于所述無監(jiān)督損失項(330)和基于距離的損失項來更新所述語音辨識模型(200)的參數(shù)聯(lián)合地發(fā)生。
21.根據(jù)權(quán)利要求13至20中任一項所述的計算機(jī)實現(xiàn)的方法(400),其中所述操作還包括對所述對應(yīng)的增強(qiáng)的聲學(xué)幀(304)的所述預(yù)測的高階特征表示(218)應(yīng)用停止梯度操作(314)。
22.根據(jù)權(quán)利要求13至21中任一項所述的計算機(jī)實現(xiàn)的方法(400),其中所述無監(jiān)督音頻編碼器(216)的所述參數(shù)和所述監(jiān)督音頻編碼器(212)的所述參數(shù)是用相同的初始參數(shù)來初始化的。
23.根據(jù)權(quán)利要求13至22中任一項所述的計算機(jī)實現(xiàn)的方法(400),其中所述無監(jiān)督音頻編碼器(216)的所述參數(shù)和所述監(jiān)督音頻編碼器(212)的所述參數(shù)是用不同的初始參數(shù)來初始化的。
24.根據(jù)權(quán)利要求13至23中任一項所述的計算機(jī)實現(xiàn)的方法(400),其中所述無監(jiān)督音頻編碼器(216)和所述監(jiān)督音頻編碼器(212)中的每一者包括以下中的至少一者: