欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

語音合成方法、裝置、計算機設備和存儲介質(zhì)與流程

文檔序號:42323078發(fā)布日期:2025-07-01 19:39閱讀:8來源:國知局

本申請涉及語音處理,特別是涉及一種語音合成方法、裝置、計算機設備和存儲介質(zhì)。


背景技術:

1、隨著語音處理技術的發(fā)展,出現(xiàn)了文本轉(zhuǎn)語音(text?to?speech,tts)技術,也可以稱為語音合成技術,這個技術作為智能問答系統(tǒng)的重要組成部分,在過去二十年中取得了巨大的發(fā)展。近幾年,神經(jīng)網(wǎng)絡算法和序列到序列模型使tts的發(fā)展達到了一定的水平,盡管基于神經(jīng)網(wǎng)絡的tts已經(jīng)顯示出有競爭力的性能,但在語音合成準確度和情感合成方向仍然有待提高。傳統(tǒng)的說話人語音合成或克隆方法中,存在語音合成準確度低、情感表達力弱的問題。


技術實現(xiàn)思路

1、基于此,有必要針對上述技術問題,提供一種能夠提高語音合成準確度和情感表達力的語音合成方法、裝置、計算機設備和存儲介質(zhì)。

2、在第一方面,本公開實施例提供了一種語音合成方法,該方法包括:

3、采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征;

4、將待合成文本數(shù)據(jù)轉(zhuǎn)換為音素數(shù)據(jù);

5、采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼特征,并基于圖注意力機制利用關系編碼特征對音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征;

6、對情感語義特征與文本編碼特征拼接,獲得拼接特征;

7、對拼接特征進行時長預測,獲得預測數(shù)據(jù);

8、對預測數(shù)據(jù)進行解碼,獲得待合成頻譜數(shù)據(jù);

9、將待合成頻譜數(shù)據(jù)轉(zhuǎn)換為合成音頻。

10、在一些實施例中,采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征,包括:

11、提取待合成文本數(shù)據(jù)的情感語義信息,獲得詞嵌入向量,詞嵌入向量用于表示詞之間的情感語義信息;

12、提取待合成文本數(shù)據(jù)的文本結(jié)構(gòu)信息,文本結(jié)構(gòu)信息用于表示詞之間的依賴關系;

13、基于詞嵌入向量和文本結(jié)構(gòu)信息,構(gòu)建依賴圖;

14、通過門控圖網(wǎng)絡對依賴圖進行情感語義增強,得到情感語義特征。

15、在一些實施例中,文本結(jié)構(gòu)信息包括多個詞節(jié)點和用于表示依賴關系的有向邊,基于詞嵌入向量和文本結(jié)構(gòu)信息,構(gòu)建依賴圖,包括:將詞嵌入向量作為文本結(jié)構(gòu)信息的詞節(jié)點,構(gòu)建依賴圖。

16、在一些實施例中,通過門控圖網(wǎng)絡對依賴圖進行情感語義增強,包括:

17、通過第一門控圖網(wǎng)絡模塊從依賴圖的有向邊方向進行情感語義增強;

18、通過第二門控圖網(wǎng)絡模塊從依賴圖的有向邊方向的反轉(zhuǎn)方向進行情感語義增強。

19、在一些實施例中,提取待合成文本數(shù)據(jù)的情感語義信息,獲得詞嵌入向量,包括:提取待合成文本數(shù)據(jù)中的子詞向量;對子詞向量進行池化處理,得到詞嵌入向量。

20、在一些實施例中,采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼數(shù)據(jù),并基于圖注意力機制利用關系編碼數(shù)據(jù)與音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征,包括:

21、根據(jù)待合成文本數(shù)據(jù)生成文本數(shù)據(jù)對應的語法樹;

22、對語法樹中的字詞之間的語法關系進行解析,以音素作為節(jié)點,音素與音素之間的語法關系作為邊,生成語法圖;

23、基于雙向門控循環(huán)單元網(wǎng)絡,對語法圖中的兩個音素之間的語法關系進行雙向編碼,得到關系編碼數(shù)據(jù);其中,關系編碼數(shù)據(jù)包括前向關系編碼向量和后向關系編碼向量;

24、基于圖編碼器的圖注意力網(wǎng)絡和關系編碼數(shù)據(jù)計算注意力分數(shù);

25、根據(jù)注意力分數(shù)對音素數(shù)據(jù)進行編碼,得到文本編碼特征。

26、在一些實施例中,基于圖編碼器的圖注意力網(wǎng)絡和關系編碼數(shù)據(jù)計算注意力分數(shù),包括:

27、基于圖編碼器的圖注意力網(wǎng)絡捕獲關系編碼中的基本語法內(nèi)容的尋址關系;

28、根據(jù)前向關系編碼向量計算音素之間的前向關系偏差;

29、根據(jù)后向關系編碼向量控制音素之間的后向關系偏差;

30、基于前向關系編碼向量和后向關系編碼向量計算綜合偏差;

31、根據(jù)尋址關系、前向關系偏差、后向關系偏差以及綜合偏差得到注意力分數(shù)。

32、在一些實施例中,基于雙向門控循環(huán)單元網(wǎng)絡,對語法圖中的兩個音素之間的語法關系進行雙向編碼,得到關系編碼數(shù)據(jù),包括:

33、在兩個音素屬于同一個詞語時,基于雙向門控循環(huán)單元網(wǎng)絡并使用自循環(huán)邊緣編碼算法對兩個音素之間的語法關系進行雙向編碼;

34、在兩個音素屬于不同詞語時,基于雙向門控循環(huán)單元網(wǎng)絡對兩個音素分別所屬的詞之間的語法關系進行雙向編碼。

35、在第二方面,本公開實施例提供了一種語音合成裝置,該裝置包括:

36、情感語義提取模塊用于采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征;

37、前端處理模塊用于將待合成文本數(shù)據(jù)轉(zhuǎn)換為音素數(shù)據(jù);

38、圖編碼模塊用于采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼特征,并基于圖注意力機制利用關系編碼特征對音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征;

39、變分適配模塊用于對情感語義特征與文本編碼特征拼接,獲得拼接特征,對拼接特征進行時長預測,獲得預測數(shù)據(jù);

40、音頻合成模塊用于將待合成頻譜數(shù)據(jù)轉(zhuǎn)換為合成音頻。

41、在第三方面,本公開實施例提供了一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,該處理器執(zhí)行計算機程序時實現(xiàn)本公開第一方面任一實施例中的語音合成方法中的相應步驟。

42、在第四方面,本公開實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)本公開第一方面任一實施例中的語音合成方法中的相應步驟。

43、上述語音合成方法、裝置、計算機設備和存儲介質(zhì),采用包括依賴分析模塊和關系型門控圖網(wǎng)絡的圖情感語義編碼器提取待合成文本數(shù)據(jù)的情感語義特征,并將圖編碼器處理后的文本編碼特征與情感語義特征進行拼接,進一步進行特征處理合成音頻。引入圖情感語義編碼器,通過依賴分析和關系型門控圖網(wǎng)絡增強情感語義特征的情感語義表示,提高了合成語音的情感度和表達能力,同時,引入圖編碼器,采用基于語法圖的語法關系編碼結(jié)合自注意力機制進行文本編碼,能提高文本編碼的準確性,從而提高語音合成的準確性。



技術特征:

1.一種語音合成方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用圖情感語義編碼器分析所述待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述文本結(jié)構(gòu)信息包括多個詞節(jié)點和用于表示依賴關系的有向邊;所述基于所述詞嵌入向量和所述文本結(jié)構(gòu)信息,構(gòu)建依賴圖,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述通過門控圖網(wǎng)絡對所述依賴圖進行情感語義增強,包括:

5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述提取所述待合成文本數(shù)據(jù)的情感語義信息,獲得詞嵌入向量,包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用圖編碼器根據(jù)所述待合成文本數(shù)據(jù)的語法圖對所述待合成文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼數(shù)據(jù),并基于圖注意力機制利用所述關系編碼數(shù)據(jù)與所述音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述圖編碼器的圖注意力網(wǎng)絡和所述關系編碼數(shù)據(jù)計算注意力分數(shù),包括:

8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于雙向門控循環(huán)單元網(wǎng)絡,對所述語法圖中的兩個音素之間的語法關系進行雙向編碼,得到關系編碼數(shù)據(jù),包括:

9.一種語音合成裝置,其特征在于,所述裝置包括:

10.一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至8中任一項所述方法的步驟。

11.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至8中任一項所述的方法的步驟。


技術總結(jié)
本公開實施例涉及一種語音合成方法、裝置、計算機設備和存儲介質(zhì)。前述方法的主要步驟包括:采用圖情感語義編碼器分析待合成文本數(shù)據(jù)的情感語義信息和詞間依賴關系,并進行情感語義增強,獲得情感語義特征;將待合成文本數(shù)據(jù)轉(zhuǎn)換為音素數(shù)據(jù);采用圖編碼器根據(jù)待合成文本數(shù)據(jù)的語法圖對文本數(shù)據(jù)進行語法關系編碼,獲得關系編碼特征,并基于圖注意力機制利用關系編碼特征對音素數(shù)據(jù)進行文本編碼,獲得文本編碼特征;對情感語義特征與文本編碼特征拼接,獲得拼接特征;對拼接特征進行時長預測,獲得預測數(shù)據(jù);對預測數(shù)據(jù)進行解碼,獲得待合成頻譜數(shù)據(jù);將待合成頻譜數(shù)據(jù)轉(zhuǎn)換為合成音頻。采用前述方法能夠提高語音合成的準確度和情感表達力。

技術研發(fā)人員:智鵬鵬,張人杰,丁雪楓
受保護的技術使用者:大眾酷翼(北京)科技有限公司
技術研發(fā)日:
技術公布日:2025/6/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1