語音識別的方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

文檔序號：42324630發(fā)布日期：2025-07-01 19:41閱讀：9來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請中涉及語音識別技術(shù)，尤其是一種語音識別的方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、相關(guān)技術(shù)中，基于語音識別模型的語音識別技術(shù)已成為當(dāng)前人工智能應(yīng)用的主要技術(shù)，其主要解決的問題是通過計算機將語音轉(zhuǎn)化為文本，對給定的波形序列得到相應(yīng)的單詞或字符序列。

2、其中，為了保證相關(guān)技術(shù)中的語音識別模型在多語種語言的語音識別任務(wù)中的識別效果，往往需要業(yè)務(wù)人員采集大量的樣本數(shù)據(jù)對語音識別模型進(jìn)行訓(xùn)練。并且，現(xiàn)有的語音識別模型本身通常具備數(shù)據(jù)量較大的特點。這也導(dǎo)致在業(yè)務(wù)人員對語音識別模型進(jìn)行訓(xùn)練的過程中，往往因為模型的數(shù)據(jù)量過大而導(dǎo)致出現(xiàn)訓(xùn)練成本較高的問題。

3、因此，如何設(shè)計一種低成本完成語音識別任務(wù)的語音識別模型，成為了語音識別技術(shù)的發(fā)展方向。

4、需要說明的是，上述的陳述僅用于提供與本申請有關(guān)的背景技術(shù)信息，而不必然地構(gòu)成現(xiàn)有技術(shù)。

技術(shù)實現(xiàn)思路

1、本申請實施例提供一種語音識別的方法、裝置、電子設(shè)備及存儲介質(zhì)。從而緩解相關(guān)技術(shù)中出現(xiàn)的，沒有一種低成本完成語音識別任務(wù)的語音識別模型的問題。

2、其中，根據(jù)本申請實施例的一個方面，提供的一種語音識別的方法，包括：

3、獲取由多個子音頻數(shù)據(jù)所組成的訓(xùn)練音頻數(shù)據(jù)，其中每個子音頻數(shù)據(jù)對應(yīng)于一個語種；

4、從各個子音頻數(shù)據(jù)中確定由多個音位特征所組成的重疊音素嵌入，其中所述重疊音素嵌入用于表征各個子音頻數(shù)據(jù)之間的重疊音素；以及，利用音頻提取模型提取所述訓(xùn)練音頻數(shù)據(jù)的聲學(xué)特征；

5、基于所述聲學(xué)特征以及所述重疊音素嵌入，對初始語音識別模型進(jìn)行訓(xùn)練，得到目標(biāo)語音識別模型；

6、利用所述目標(biāo)語音識別模型對待識別語音進(jìn)行識別，得到語音識別結(jié)果。

7、可選地，在基于本申請上述方法的另一個實施例中，所述從多個子音頻數(shù)據(jù)中確定由多個音位特征所組成的重疊音素嵌入，包括：

8、確定各個子音頻數(shù)據(jù)包含的多個音素特征；以及，獲取組成各個音素特征的音位特征集合；

9、基于各個音素特征對應(yīng)的音位特征集合，確定所述重疊音素嵌入。

10、可選地，在基于本申請上述方法的另一個實施例中，所述基于各個音素特征對應(yīng)的音位特征集合，確定所述重疊音素嵌入，包括：

11、計算各個音位特征集合之間的音位重疊數(shù)量；將音位重疊數(shù)量大于第一數(shù)值的至少兩個音位特征集合作為重疊音位特征集合；

12、將各個重疊音位特征集合對應(yīng)的音素特征作為所述重疊音素嵌入。

13、可選地，在基于本申請上述方法的另一個實施例中，所述將各個重疊音位特征集合對應(yīng)的音素特征作為所述重疊音素嵌入，包括：

14、為各個重疊音位特征集合對應(yīng)的音素特征計算后驗概率值；

15、將所述后驗概率值大于第二數(shù)值的音素特征，作為所述重疊音素嵌入。

16、可選地，在基于本申請上述方法的另一個實施例中，所述基于所述聲學(xué)特征以及所述重疊音素嵌入，對初始語音識別模型進(jìn)行訓(xùn)練，包括：

17、基于所述聲學(xué)特征，從多個重疊音素嵌入中選取出至少一個目標(biāo)重疊音素嵌入；

18、將所述目標(biāo)重疊音素嵌入作為訓(xùn)練數(shù)據(jù)，對所述初始語音識別模型進(jìn)行訓(xùn)練。

19、可選地，在基于本申請上述方法的另一個實施例中，所述基于所述聲學(xué)特征，從多個重疊音素嵌入中選取出至少一個目標(biāo)重疊音素嵌入，包括：

20、計算所述聲學(xué)特征與各個重疊音素嵌入的內(nèi)積，得到各個重疊音素嵌入對應(yīng)的內(nèi)積值；

21、將內(nèi)積值大于第三數(shù)值的重疊音素嵌入作為所述目標(biāo)重疊音素嵌入。

22、可選地，在基于本申請上述方法的另一個實施例中，在所述將內(nèi)積值大于第三數(shù)值的重疊音素嵌入作為所述目標(biāo)重疊音素嵌入之后，包括：

23、通過對比損失和碼本多樣性損失以自監(jiān)督的方式，利用所述目標(biāo)重疊音素嵌入對所述初始語音識別模型進(jìn)行微調(diào)訓(xùn)練，得到所述目標(biāo)語音識別模型。

24、其中，根據(jù)本申請實施例的又一個方面，提供的一種語音識別的裝置，包括：

25、獲取模塊，被配置為獲取由多個子音頻數(shù)據(jù)所組成的訓(xùn)練音頻數(shù)據(jù)，其中每個子音頻數(shù)據(jù)對應(yīng)于一個語種；

26、確定模塊，被配置為從各個子音頻數(shù)據(jù)中確定由多個音位特征所組成的重疊音素嵌入，其中所述重疊音素嵌入用于表征各個子音頻數(shù)據(jù)之間的重疊音素；以及，利用音頻提取模型提取所述訓(xùn)練音頻數(shù)據(jù)的聲學(xué)特征；

27、訓(xùn)練模塊，被配置為基于所述聲學(xué)特征以及所述重疊音素嵌入，對初始語音識別模型進(jìn)行訓(xùn)練，得到目標(biāo)語音識別模型；

28、生成模塊，被配置為利用所述目標(biāo)語音識別模型對待識別語音進(jìn)行識別，得到語音識別結(jié)果。

29、根據(jù)本申請實施例的又一個方面，提供的一種電子設(shè)備，包括：

30、存儲器，用于存儲可執(zhí)行指令；以及

31、處理器，用于與所述存儲器執(zhí)行所述可執(zhí)行指令從而完成上述任一所述方法的操作。

32、根據(jù)本申請實施例的另一個方面，提供的一種計算機可讀存儲介質(zhì)，用于存儲計算機可讀取的指令，所述指令被執(zhí)行時執(zhí)行上述任一所述方法的操作。

33、通過應(yīng)用本申請實施例的技術(shù)方案，可以從一段包含多語種語言的音頻數(shù)據(jù)中提取出各個語種語言的子音頻，并以音位特征作為最小檢索單位，從各個子音頻中選取出互相最為相似的多個重疊音素，并結(jié)合音頻數(shù)據(jù)中提取出的聲學(xué)特征從多個重疊音素中篩選出發(fā)音特征與音頻特征均相近的重疊音素嵌入對初始語音識別模型進(jìn)行訓(xùn)練，以使后續(xù)基于該訓(xùn)練后的語音識別模型對多語種語言的音頻數(shù)據(jù)進(jìn)行語音識別。從而一方面實現(xiàn)了一種利用多語種語言之間的重疊音素特征對模型進(jìn)行訓(xùn)練的方式來避免相關(guān)技術(shù)中，需要利用全音頻數(shù)據(jù)對模型進(jìn)行訓(xùn)練而導(dǎo)致的訓(xùn)練成本過高的問題。另一方面通過選取重疊音素特征對模型進(jìn)行訓(xùn)練的方式也能夠提高模型在后續(xù)多語種語言的語音識別場景下的識別準(zhǔn)確度。

34、上述說明僅是本申請技術(shù)方案的概述，為了能夠更清楚了解本申請的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本申請的上述和其它效果、特征和優(yōu)點能夠更明顯易懂，以下特舉本申請的具體實施方式。

技術(shù)特征：

1.一種語音識別的方法，其特征在于，包括：

2.如權(quán)利要求1所述方法，其特征在于，所述從多個子音頻數(shù)據(jù)中確定由多個音位特征所組成的重疊音素嵌入，包括：

3.如權(quán)利要求2所述方法，其特征在于，所述基于各個音素特征對應(yīng)的音位特征集合，確定所述重疊音素嵌入，包括：

4.如權(quán)利要求3所述方法，其特征在于，所述將各個重疊音位特征集合對應(yīng)的音素特征作為所述重疊音素嵌入，包括：

5.如權(quán)利要求1所述方法，其特征在于，所述基于所述聲學(xué)特征以及所述重疊音素嵌入，對初始語音識別模型進(jìn)行訓(xùn)練，包括：

6.如權(quán)利要求5所述方法，其特征在于，所述基于所述聲學(xué)特征，從多個重疊音素嵌入中選取出至少一個目標(biāo)重疊音素嵌入，包括：

7.如權(quán)利要求6所述方法，其特征在于，在所述將內(nèi)積值大于第三數(shù)值的重疊音素嵌入作為所述目標(biāo)重疊音素嵌入之后，包括：

8.一種語音識別的裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括：

10.一種計算機可讀存儲介質(zhì)，用于存儲計算機可讀取的指令，其特征在于，所述指令用于執(zhí)行權(quán)利要求1-7中任一所述方法的操作。

技術(shù)總結(jié)
本申請公開了一種語音識別的方法、裝置、電子設(shè)備及存儲介質(zhì)。通過應(yīng)用本申請實施例的技術(shù)方案，可以從一段包含多語種語言的音頻數(shù)據(jù)中提取出各個語種語言的子音頻，并以音位特征作為最小檢索單位，從各個子音頻中選取出互相最為相似的多個重疊音素，并結(jié)合音頻數(shù)據(jù)中提取出的聲學(xué)特征從多個重疊音素中篩選出發(fā)音特征與音頻特征均相近的重疊音素嵌入對初始語音識別模型進(jìn)行訓(xùn)練，以使后續(xù)基于該訓(xùn)練后的語音識別模型對多語種語言的音頻數(shù)據(jù)進(jìn)行語音識別。

技術(shù)研發(fā)人員：王欣唯
受保護(hù)的技術(shù)使用者：順豐科技有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/6/30

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王欣唯
技術(shù)所有人：順豐科技有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

語音識別的方法、裝置、電子設(shè)備及存儲介質(zhì)與流程

語音識別的方法、裝置、電子設(shè)備及存儲介質(zhì)與流程