本申請涉及機(jī)器學(xué)習(xí),具體而言,涉及一種基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法及系統(tǒng)。
背景技術(shù):
1、在音頻處理領(lǐng)域,音色轉(zhuǎn)換是一項具有重要意義的技術(shù)。不同的音色能夠傳達(dá)不同的情感、信息和風(fēng)格。例如,在語音合成中,用戶可能希望將一種平淡的語音音色轉(zhuǎn)換為富有情感、富有磁性或者更加柔和的音色;在音樂制作中,也經(jīng)常需要將一種樂器的音色轉(zhuǎn)換為另一種樂器的音色以獲得獨(dú)特的音樂效果。傳統(tǒng)的音色轉(zhuǎn)換方法往往存在諸多局限性,例如轉(zhuǎn)換后的音色不夠自然、對原始音頻的語音內(nèi)容保留不佳或者在處理復(fù)雜音色屬性時效果不理想等。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請的目的在于提供一種基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法及系統(tǒng)。
2、依據(jù)本申請的第一方面,提供一種基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,所述方法包括:
3、獲取源音頻信號和目標(biāo)音色描述,所述源音頻信號包含待轉(zhuǎn)換的原始音色特征,所述目標(biāo)音色描述用于定義期望輸出的音色屬性;
4、將所述源音頻信號分解為多個音頻幀,并對每個所述音頻幀執(zhí)行時頻變換處理,提取所述源音頻信號的頻譜特征;
5、將所述目標(biāo)音色描述轉(zhuǎn)換為多維音色特征向量,所述多維音色特征向量包含與所述音色屬性對應(yīng)的量化參數(shù);
6、將所述頻譜特征與所述多維音色特征向量輸入音色融合網(wǎng)絡(luò)進(jìn)行特征融合,生成包含目標(biāo)音色屬性的轉(zhuǎn)換后頻譜特征;
7、對所述轉(zhuǎn)換后頻譜特征執(zhí)行逆時頻變換處理,生成目標(biāo)音頻信號,所述目標(biāo)音頻信號的音色屬性與所述目標(biāo)音色描述中的期望音色屬性一致。
8、在第一方面的一種可能的實施方式中,所述將所述源音頻信號分解為多個音頻幀,并對每個所述音頻幀執(zhí)行時頻變換處理,提取所述源音頻信號的頻譜特征,包括:
9、對所述源音頻信號進(jìn)行分幀處理,得到多個固定時長的音頻幀,每個所述音頻幀通過加窗函數(shù)處理以減少頻譜泄漏;
10、對每個加窗后的音頻幀執(zhí)行傅里葉變換,得到對應(yīng)的幅度譜和相位譜;
11、從所述幅度譜中提取梅爾頻率倒譜系數(shù)作為所述頻譜特征,并將所述相位譜作為重構(gòu)參數(shù)保留。
12、在第一方面的一種可能的實施方式中,所述目標(biāo)音色描述包括參考音頻片段或用戶輸入的文本描述;
13、當(dāng)所述目標(biāo)音色描述為參考音頻片段時,對所述參考音頻片段進(jìn)行基頻提取和共振峰分析,生成所述多維音色特征向量;
14、當(dāng)所述目標(biāo)音色描述為文本描述時,調(diào)用預(yù)訓(xùn)練的音色屬性解析模型,將所述文本描述映射為所述多維音色特征向量中的量化參數(shù)。
15、在第一方面的一種可能的實施方式中,述音色融合網(wǎng)絡(luò)包括編碼器和解碼器,所述編碼器由多個卷積層組成,用于將所述頻譜特征壓縮為潛在空間特征;
16、所述解碼器由多個反卷積層組成,用于將所述潛在空間特征與所述多維音色特征向量進(jìn)行通道拼接后重構(gòu)為所述轉(zhuǎn)換后頻譜特征;
17、其中,所述編碼器和所述解碼器通過跳躍連接傳遞低頻信息以保留所述源音頻信號的語音內(nèi)容。
18、在第一方面的一種可能的實施方式中,所述音色融合網(wǎng)絡(luò)的訓(xùn)練過程包括:
19、采集多組不同音色的訓(xùn)練音頻數(shù)據(jù),并為每組訓(xùn)練音頻數(shù)據(jù)標(biāo)注對應(yīng)的音色屬性標(biāo)簽;
20、將訓(xùn)練音頻的頻譜特征輸入所述編碼器得到潛在特征,并將標(biāo)注的所述音色屬性標(biāo)簽轉(zhuǎn)換為條件向量;
21、將所述潛在特征與所述條件向量輸入所述解碼器,生成重構(gòu)頻譜特征;
22、計算所述重構(gòu)頻譜特征與目標(biāo)頻譜特征之間的均方誤差損失,并聯(lián)合優(yōu)化所述編碼器和所述解碼器的網(wǎng)絡(luò)參數(shù)。
23、在第一方面的一種可能的實施方式中,所述方法還包括對所述轉(zhuǎn)換后頻譜特征進(jìn)行動態(tài)范圍調(diào)整的步驟:
24、根據(jù)所述源音頻信號的基頻軌跡和能量分布,調(diào)整所述轉(zhuǎn)換后頻譜特征的諧波成分和噪聲成分的比例;
25、將調(diào)整后的頻譜特征與保留的所述相位譜結(jié)合,生成滿足時域連續(xù)性的中間信號;
26、對所述中間信號進(jìn)行線性預(yù)測分析,修正頻譜包絡(luò)以匹配所述目標(biāo)音色描述中的共振峰帶寬參數(shù)。
27、在第一方面的一種可能的實施方式中,所述動態(tài)范圍調(diào)整通過可微分信號處理模塊實現(xiàn),所述可微分信號處理模塊包括:
28、諧波增強(qiáng)單元,用于根據(jù)所述多維音色特征向量中的明亮度參數(shù)增強(qiáng)高頻諧波能量;
29、噪聲抑制單元,用于根據(jù)所述多維音色特征向量中的平滑度參數(shù)降低非周期性噪聲的幅度;
30、所述諧波增強(qiáng)單元和所述噪聲抑制單元的輸出通過加權(quán)求和方式融合,權(quán)重由所述音色屬性中的情感類別參數(shù)動態(tài)控制。
31、在第一方面的一種可能的實施方式中,所述方法還包括對所述目標(biāo)音頻信號進(jìn)行后處理的步驟:
32、提取所述源音頻信號的原始節(jié)奏特征和語調(diào)輪廓,并將所述原始節(jié)奏特征與所述目標(biāo)音頻信號的頻譜進(jìn)行時間對齊;
33、根據(jù)所述語調(diào)輪廓調(diào)整所述目標(biāo)音頻信號的基頻曲線,使其保持與所述源音頻信號相同的語速和重音模式;
34、將調(diào)整后的基頻曲線輸入聲碼器生成最終的目標(biāo)音頻信號。
35、在第一方面的一種可能的實施方式中,當(dāng)所述用戶輸入的文本描述包含多個沖突音色屬性時,執(zhí)行以下處理:
36、通過注意力機(jī)制計算每個音色屬性的權(quán)重系數(shù),所述權(quán)重系數(shù)基于所述源音頻信號的原始音色特征與目標(biāo)音色屬性之間的兼容性確定;
37、將加權(quán)的音色屬性參數(shù)合并為統(tǒng)一的多維音色特征向量,并生成對應(yīng)的沖突解決日志供用戶確認(rèn)。
38、依據(jù)本申請的第二方面,提供一種基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換系統(tǒng),所述基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換系統(tǒng)包括機(jī)器可讀存儲介質(zhì)及處理器,所述機(jī)器可讀存儲介質(zhì)存儲有機(jī)器可執(zhí)行指令,所述處理器在執(zhí)行所述機(jī)器可執(zhí)行指令時,該基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換系統(tǒng)實現(xiàn)前述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法。
39、依據(jù)本申請的第三方面,提供一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)中存儲有計算機(jī)可執(zhí)行指令,在所述計算機(jī)可執(zhí)行指令被執(zhí)行時,實現(xiàn)前述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法。
40、依據(jù)上述任意一個方面,本申請的技術(shù)效果在于:
41、首先獲取源音頻信號和目標(biāo)音色描述,將源音頻信號分解為多個音頻幀并提取頻譜特征,把目標(biāo)音色描述轉(zhuǎn)換為多維音色特征向量,然后通過音色融合網(wǎng)絡(luò)進(jìn)行特征融合得到轉(zhuǎn)換后頻譜特征,再經(jīng)過逆時頻變換生成目標(biāo)音頻信號。此外,還涉及對轉(zhuǎn)換后頻譜特征的動態(tài)范圍調(diào)整以及對目標(biāo)音頻信號的后處理等步驟,以提高音色轉(zhuǎn)換的質(zhì)量和效果,解決多種復(fù)雜情況下的音色轉(zhuǎn)換問題。
1.一種基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述將所述源音頻信號分解為多個音頻幀,并對每個所述音頻幀執(zhí)行時頻變換處理,提取所述源音頻信號的頻譜特征,包括:
3.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述目標(biāo)音色描述包括參考音頻片段或用戶輸入的文本描述;
4.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述音色融合網(wǎng)絡(luò)包括編碼器和解碼器,所述編碼器由多個卷積層組成,用于將所述頻譜特征壓縮為潛在空間特征;
5.根據(jù)權(quán)利要求4所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述音色融合網(wǎng)絡(luò)的訓(xùn)練過程包括:
6.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述方法還包括對所述轉(zhuǎn)換后頻譜特征進(jìn)行動態(tài)范圍調(diào)整的步驟:
7.根據(jù)權(quán)利要求6所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述動態(tài)范圍調(diào)整通過可微分信號處理模塊實現(xiàn),所述可微分信號處理模塊包括:
8.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,所述方法還包括對所述目標(biāo)音頻信號進(jìn)行后處理的步驟:
9.根據(jù)權(quán)利要求3所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法,其特征在于,當(dāng)所述用戶輸入的文本描述包含多個沖突音色屬性時,執(zhí)行以下處理:
10.一種基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換系統(tǒng),其特征在于,包括處理器以及計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)存儲有機(jī)器可執(zhí)行指令,所述機(jī)器可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-9中任意一項所述的基于機(jī)器學(xué)習(xí)算法的音色轉(zhuǎn)換方法。