本申請涉及語音處理,特別是涉及一種語音合成方法、裝置、計算機設備和存儲介質(zhì)。
背景技術:
1、隨著語音處理技術的發(fā)展,出現(xiàn)了文本轉(zhuǎn)語音(text?to?speech,tts)技術,也可以稱為語音合成技術,這個技術作為智能問答系統(tǒng)的重要組成部分,在過去二十年中取得了巨大的發(fā)展。近幾年,神經(jīng)網(wǎng)絡算法和序列到序列模型使tts的發(fā)展達到了一定的水平,盡管基于神經(jīng)網(wǎng)絡的tts已經(jīng)顯示出有競爭力的性能,但在語音合成準確度和情感合成方向仍然有待提高。傳統(tǒng)的說話人語音合成或克隆方法中,存在語音合成準確度低、情感表達力弱的問題。
技術實現(xiàn)思路
1、基于此,有必要針對上述技術問題,提供一種能夠提高語音合成準確度和情感表達力的語音合成方法、裝置、計算機設備和存儲介質(zhì)。
2、在第一方面,本公開實施例提供了一種語音合成方法,該方法包括:
3、采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征;
4、將待合成文本數(shù)據(jù)轉(zhuǎn)換為音素數(shù)據(jù);
5、采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼特征,并基于圖注意力機制利用關系編碼特征對音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征;
6、對情感語義特征與文本編碼特征拼接,獲得拼接特征;
7、對拼接特征進行時長預測,獲得預測數(shù)據(jù);
8、對預測數(shù)據(jù)進行解碼,獲得待合成頻譜數(shù)據(jù);
9、將待合成頻譜數(shù)據(jù)轉(zhuǎn)換為合成音頻。
10、在一些實施例中,采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征,包括:
11、提取待合成文本數(shù)據(jù)的情感語義信息,獲得詞嵌入向量,詞嵌入向量用于表示詞之間的情感語義信息;
12、提取待合成文本數(shù)據(jù)的文本結(jié)構(gòu)信息,文本結(jié)構(gòu)信息用于表示詞之間的依賴關系;
13、基于詞嵌入向量和文本結(jié)構(gòu)信息,構(gòu)建依賴圖;
14、通過門控圖網(wǎng)絡對依賴圖進行情感語義增強,得到情感語義特征。
15、在一些實施例中,文本結(jié)構(gòu)信息包括多個詞節(jié)點和用于表示依賴關系的有向邊,基于詞嵌入向量和文本結(jié)構(gòu)信息,構(gòu)建依賴圖,包括:將詞嵌入向量作為文本結(jié)構(gòu)信息的詞節(jié)點,構(gòu)建依賴圖。
16、在一些實施例中,通過門控圖網(wǎng)絡對依賴圖進行情感語義增強,包括:
17、通過第一門控圖網(wǎng)絡模塊從依賴圖的有向邊方向進行情感語義增強;
18、通過第二門控圖網(wǎng)絡模塊從依賴圖的有向邊方向的反轉(zhuǎn)方向進行情感語義增強。
19、在一些實施例中,提取待合成文本數(shù)據(jù)的情感語義信息,獲得詞嵌入向量,包括:提取待合成文本數(shù)據(jù)中的子詞向量;對子詞向量進行池化處理,得到詞嵌入向量。
20、在一些實施例中,采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼數(shù)據(jù),并基于圖注意力機制利用關系編碼數(shù)據(jù)與音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征,包括:
21、根據(jù)待合成文本數(shù)據(jù)生成文本數(shù)據(jù)對應的語法樹;
22、對語法樹中的字詞之間的語法關系進行解析,以音素作為節(jié)點,音素與音素之間的語法關系作為邊,生成語法圖;
23、基于雙向門控循環(huán)單元網(wǎng)絡,對語法圖中的兩個音素之間的語法關系進行雙向編碼,得到關系編碼數(shù)據(jù);其中,關系編碼數(shù)據(jù)包括前向關系編碼向量和后向關系編碼向量;
24、基于圖編碼器的圖注意力網(wǎng)絡和關系編碼數(shù)據(jù)計算注意力分數(shù);
25、根據(jù)注意力分數(shù)對音素數(shù)據(jù)進行編碼,得到文本編碼特征。
26、在一些實施例中,基于圖編碼器的圖注意力網(wǎng)絡和關系編碼數(shù)據(jù)計算注意力分數(shù),包括:
27、基于圖編碼器的圖注意力網(wǎng)絡捕獲關系編碼中的基本語法內(nèi)容的尋址關系;
28、根據(jù)前向關系編碼向量計算音素之間的前向關系偏差;
29、根據(jù)后向關系編碼向量控制音素之間的后向關系偏差;
30、基于前向關系編碼向量和后向關系編碼向量計算綜合偏差;
31、根據(jù)尋址關系、前向關系偏差、后向關系偏差以及綜合偏差得到注意力分數(shù)。
32、在一些實施例中,基于雙向門控循環(huán)單元網(wǎng)絡,對語法圖中的兩個音素之間的語法關系進行雙向編碼,得到關系編碼數(shù)據(jù),包括:
33、在兩個音素屬于同一個詞語時,基于雙向門控循環(huán)單元網(wǎng)絡并使用自循環(huán)邊緣編碼算法對兩個音素之間的語法關系進行雙向編碼;
34、在兩個音素屬于不同詞語時,基于雙向門控循環(huán)單元網(wǎng)絡對兩個音素分別所屬的詞之間的語法關系進行雙向編碼。
35、在第二方面,本公開實施例提供了一種語音合成裝置,該裝置包括:
36、情感語義提取模塊用于采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征;
37、前端處理模塊用于將待合成文本數(shù)據(jù)轉(zhuǎn)換為音素數(shù)據(jù);
38、圖編碼模塊用于采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼特征,并基于圖注意力機制利用關系編碼特征對音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征;
39、變分適配模塊用于對情感語義特征與文本編碼特征拼接,獲得拼接特征,對拼接特征進行時長預測,獲得預測數(shù)據(jù);
40、音頻合成模塊用于將待合成頻譜數(shù)據(jù)轉(zhuǎn)換為合成音頻。
41、在第三方面,本公開實施例提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,該處理器執(zhí)行計算機程序時實現(xiàn)本公開第一方面任一實施例中的語音合成方法中的相應步驟。
42、在第四方面,本公開實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)本公開第一方面任一實施例中的語音合成方法中的相應步驟。
43、上述語音合成方法、裝置、計算機設備和存儲介質(zhì),采用包括依賴分析模塊和關系型門控圖網(wǎng)絡的圖情感語義編碼器提取待合成文本數(shù)據(jù)的情感語義特征,并將圖編碼器處理后的文本編碼特征與情感語義特征進行拼接,進一步進行特征處理合成音頻。引入圖情感語義編碼器,通過依賴分析和關系型門控圖網(wǎng)絡增強情感語義特征的情感語義表示,提高了合成語音的情感度和表達能力,同時,引入圖編碼器,采用基于語法圖的語法關系編碼結(jié)合自注意力機制進行文本編碼,能提高文本編碼的準確性,從而提高語音合成的準確性。
1.一種語音合成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用圖情感語義編碼器分析所述待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述文本結(jié)構(gòu)信息包括多個詞節(jié)點和用于表示依賴關系的有向邊;所述基于所述詞嵌入向量和所述文本結(jié)構(gòu)信息,構(gòu)建依賴圖,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述通過門控圖網(wǎng)絡對所述依賴圖進行情感語義增強,包括:
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述提取所述待合成文本數(shù)據(jù)的情感語義信息,獲得詞嵌入向量,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用圖編碼器根據(jù)所述待合成文本數(shù)據(jù)的語法圖對所述待合成文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼數(shù)據(jù),并基于圖注意力機制利用所述關系編碼數(shù)據(jù)與所述音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述圖編碼器的圖注意力網(wǎng)絡和所述關系編碼數(shù)據(jù)計算注意力分數(shù),包括:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于雙向門控循環(huán)單元網(wǎng)絡,對所述語法圖中的兩個音素之間的語法關系進行雙向編碼,得到關系編碼數(shù)據(jù),包括:
9.一種語音合成裝置,其特征在于,所述裝置包括:
10.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至8中任一項所述方法的步驟。
11.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任一項所述的方法的步驟。