欧美日韩啪啪,最新精品在线,国产ts一区二区,色亚洲一区二区,草草影院国产,久久国产99,欧美日韩四区

用于權(quán)限驗(yàn)證的聲紋識別方法、模型構(gòu)建方法及系統(tǒng)與流程

文檔序號:42327152發(fā)布日期:2025-07-01 19:46閱讀:12來源:國知局

本技術(shù)實(shí)施例涉及用戶鑒別,尤其涉及一種用于權(quán)限驗(yàn)證的聲紋識別方法、模型構(gòu)建方法及系統(tǒng)。


背景技術(shù):

1、在許多需要嚴(yán)格權(quán)限控制和操作規(guī)范的場景中,例如金融交易、機(jī)密信息訪問、以及特別是醫(yī)療手術(shù)等高風(fēng)險環(huán)境,確保操作人員的身份準(zhǔn)確性、資質(zhì)符合性以及行為合規(guī)性至關(guān)重要。傳統(tǒng)的身份驗(yàn)證方法,如密碼、鑰匙、ic卡等,存在易丟失、被盜用或轉(zhuǎn)借的風(fēng)險。

2、近年來,生物識別技術(shù)因其唯一性和不易偽造性得到了廣泛應(yīng)用,包括指紋識別、人臉識別、虹膜識別和聲紋識別等。指紋識別和人臉識別是目前較為主流的生物識別方式。然而,在某些特定場景下,這些技術(shù)會遇到局限性。例如,在醫(yī)療手術(shù)室環(huán)境中,醫(yī)護(hù)人員通常需要佩戴口罩、手套和手術(shù)帽等防護(hù)裝備,這使得面部特征難以完整捕捉,指紋采集也變得不便或不衛(wèi)生。此外,這些驗(yàn)證方式通常用于入口處的單次驗(yàn)證,難以對進(jìn)入場景后的持續(xù)操作過程進(jìn)行實(shí)時、動態(tài)的監(jiān)控和權(quán)限確認(rèn)。

3、聲紋識別,即利用語音波形中反映說話人生理和行為特征的聲學(xué)參數(shù)進(jìn)行身份識別的技術(shù),具有非接觸、易于采集的優(yōu)點(diǎn),且不易受佩戴口罩等因素的影響,因此在某些場景下應(yīng)用較廣?,F(xiàn)有的聲紋識別技術(shù)主要應(yīng)用于身份確認(rèn),例如用于門禁系統(tǒng)、遠(yuǎn)程身份認(rèn)證等。這些系統(tǒng)通常在相對安靜的環(huán)境下,通過用戶念出固定的或隨機(jī)的文本內(nèi)容,提取聲紋特征與預(yù)先注冊的聲紋模型進(jìn)行比對,以完成身份驗(yàn)證。

4、然而,在如手術(shù)室這樣復(fù)雜、動態(tài)且高風(fēng)險的環(huán)境中,僅僅在入口處進(jìn)行一次性的身份驗(yàn)證是遠(yuǎn)遠(yuǎn)不夠的。手術(shù)過程中,環(huán)境噪音(如醫(yī)療設(shè)備運(yùn)行聲、人員走動聲)干擾大,多名醫(yī)護(hù)人員可能同時或交替講話,且手術(shù)流程復(fù)雜,不同階段需要由具備特定資質(zhì)的人員(如主刀醫(yī)生)發(fā)出關(guān)鍵指令或執(zhí)行關(guān)鍵操作。存在這樣的風(fēng)險:即使通過了入口驗(yàn)證,實(shí)際執(zhí)行關(guān)鍵操作或發(fā)出關(guān)鍵指令的人員可能并非預(yù)定或具備相應(yīng)資質(zhì)的人員(例如,由經(jīng)驗(yàn)不足的助手代替主刀醫(yī)生執(zhí)行了超出其權(quán)限的操作)。此外,若手術(shù)中遇到突發(fā)狀況,人員在高壓力、高負(fù)荷狀態(tài)下,其聲音特征可能發(fā)生變化,因此會影響聲紋識別的準(zhǔn)確性。

5、因此,傳統(tǒng)的聲紋識別技術(shù)在高噪音、高壓力、多人員協(xié)作的復(fù)雜動態(tài)環(huán)境中,尤其是手術(shù)室環(huán)境,具有準(zhǔn)確性較低的缺陷。


技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供一種用于權(quán)限驗(yàn)證的聲紋識別方法、模型構(gòu)建方法及系統(tǒng),用于在高噪音、高壓力、多人員協(xié)作的復(fù)雜動態(tài)環(huán)境中,尤其是手術(shù)室環(huán)境,有效提高聲紋識別的準(zhǔn)確性。

2、為達(dá)到上述目的,本技術(shù)的實(shí)施例采用如下技術(shù)方案:

3、第一方面,提供了一種用于權(quán)限驗(yàn)證的聲紋識別方法,應(yīng)用于聲紋識別系統(tǒng),聲紋識別系統(tǒng)包括入口聲紋識別裝置、內(nèi)部聲紋識別裝置和電子設(shè)備,電子設(shè)備存儲有身份參考模型和對應(yīng)的狀態(tài)基線模型,每個人員對應(yīng)一個身份參考模型和一個狀態(tài)基線模型,該方法包括:

4、響應(yīng)于人員在預(yù)定操作場景的固定入口區(qū)域發(fā)出的進(jìn)入請求,通過入口聲紋識別裝置發(fā)出隨機(jī)驗(yàn)證指令;

5、采集人員對隨機(jī)驗(yàn)證指令的應(yīng)答語音,并從應(yīng)答語音中提取入口身份聲學(xué)特征;

6、將入口身份聲學(xué)特征與身份參考模型進(jìn)行比對,得到比對結(jié)果,并基于比對結(jié)果和預(yù)設(shè)的入口驗(yàn)證閾值,確定是否授權(quán)人員進(jìn)入預(yù)定操作場景;

7、在授權(quán)人員進(jìn)入預(yù)定操作場景時,記錄人員的進(jìn)入狀態(tài);

8、在預(yù)定操作場景內(nèi)部,通過內(nèi)部聲紋識別裝置持續(xù)捕獲環(huán)境聲音,并在環(huán)境聲音中提取目標(biāo)語音段;

9、從目標(biāo)語音段中提取實(shí)時身份聲學(xué)特征和實(shí)時狀態(tài)聲學(xué)特征;

10、將實(shí)時身份聲學(xué)特征與身份參考模型進(jìn)行比對,以識別發(fā)出目標(biāo)語音段的說話人及其角色;

11、獲取與預(yù)定操作場景相關(guān)的實(shí)時上下文信息;

12、根據(jù)識別出的角色和實(shí)時上下文信息,確定對應(yīng)的預(yù)定義行為規(guī)則;

13、基于預(yù)定義行為規(guī)則,對實(shí)時狀態(tài)聲學(xué)特征執(zhí)行動態(tài)驗(yàn)證,得到動態(tài)驗(yàn)證結(jié)果;

14、根據(jù)動態(tài)驗(yàn)證結(jié)果,生成輸出信息。

15、在第一方面的一種可能的實(shí)現(xiàn)方式中,將入口身份聲學(xué)特征與身份參考模型進(jìn)行比對,得到比對結(jié)果,并基于比對結(jié)果和預(yù)設(shè)的入口驗(yàn)證閾值,確定是否授權(quán)人員進(jìn)入預(yù)定操作場景,包括:

16、獲取與預(yù)定操作場景關(guān)聯(lián)的所有授權(quán)人員的身份參考模型;

17、計(jì)算入口身份聲學(xué)特征與每個身份參考模型之間的相似度得分;

18、確定相似度得分中的最高得分以及對應(yīng)的身份參考模型,并判斷最高得分是否大于或等于預(yù)設(shè)的入口驗(yàn)證閾值;

19、在最高得分大于或等于入口驗(yàn)證閾值時,確定授權(quán)對應(yīng)身份參考模型的人員進(jìn)入預(yù)定操作場景。

20、在第一方面的另一種可能的實(shí)現(xiàn)方式中,在環(huán)境聲音中提取目標(biāo)語音段,包括:

21、通過內(nèi)部聲紋識別裝置配置的麥克風(fēng)陣列,采集多通道音頻信號;

22、對多通道音頻信號應(yīng)用聲源定位算法,以確定語音來源方向;

23、基于語音來源方向,應(yīng)用波束形成算法處理多通道音頻信號,得到增強(qiáng)后的單通道語音信號;

24、對增強(qiáng)后的單通道語音信號執(zhí)行語音活動檢測,以分割并提取出目標(biāo)語音段。

25、在第一方面的另一種可能的實(shí)現(xiàn)方式中,從目標(biāo)語音段中提取實(shí)時身份聲學(xué)特征和實(shí)時狀態(tài)聲學(xué)特征,包括:

26、應(yīng)用第一預(yù)設(shè)算法,從目標(biāo)語音段中提取用于唯一標(biāo)識說話人身份的深度聲紋特征作為實(shí)時身份聲學(xué)特征;

27、應(yīng)用第二預(yù)設(shè)算法集,從目標(biāo)語音段中提取實(shí)時狀態(tài)聲學(xué)特征,其中,實(shí)時狀態(tài)聲學(xué)特征包括基頻統(tǒng)計(jì)量、抖動值、微顫值、能量特征和語速特征中的至少一者。

28、在第一方面的另一種可能的實(shí)現(xiàn)方式中,將實(shí)時身份聲學(xué)特征與身份參考模型進(jìn)行比對,以識別發(fā)出目標(biāo)語音段的說話人及其角色,包括:

29、獲取當(dāng)前記錄為進(jìn)入狀態(tài)的所有授權(quán)人員的身份參考模型及對應(yīng)的角色信息;

30、計(jì)算實(shí)時身份聲學(xué)特征與每個身份參考模型之間的相似度得分;

31、確定相似度得分中的最高得分以及對應(yīng)的身份參考模型;

32、判斷最高得分是否大于或等于預(yù)設(shè)的識別閾值;

33、在最高得分大于或等于預(yù)設(shè)的識別閾值時,將發(fā)出目標(biāo)語音段的說話人識別為與最高得分對應(yīng)的身份參考模型關(guān)聯(lián)的授權(quán)人員,并確定說話人的角色。

34、在第一方面的另一種可能的實(shí)現(xiàn)方式中,預(yù)定義行為規(guī)則包括角色的指令權(quán)限和預(yù)期狀態(tài)范圍,根據(jù)識別出的角色和實(shí)時上下文信息,確定對應(yīng)的預(yù)定義行為規(guī)則,包括:

35、獲取預(yù)定操作場景的當(dāng)前階段信息作為實(shí)時上下文信息;

36、將識別出的角色和當(dāng)前階段信息作為查詢條件,在預(yù)設(shè)數(shù)據(jù)庫中檢索得到角色在當(dāng)前階段信息下被授權(quán)執(zhí)行的指令類型集合;以及

37、檢索得到角色在當(dāng)前階段信息下的預(yù)期聲學(xué)狀態(tài)特征的統(tǒng)計(jì)范圍;

38、將指令類型集合作為指令權(quán)限,將預(yù)期聲學(xué)狀態(tài)特征的統(tǒng)計(jì)范圍作為預(yù)期狀態(tài)范圍。

39、在第一方面的另一種可能的實(shí)現(xiàn)方式中,基于預(yù)定義行為規(guī)則,對實(shí)時狀態(tài)聲學(xué)特征執(zhí)行動態(tài)驗(yàn)證,得到動態(tài)驗(yàn)證結(jié)果,包括:

40、將實(shí)時狀態(tài)聲學(xué)特征中的每個特征值與預(yù)期狀態(tài)范圍進(jìn)行比較,并統(tǒng)計(jì)超出預(yù)期狀態(tài)范圍的特征數(shù)量;

41、基于特征數(shù)量,確定說話人的實(shí)時狀態(tài)為正?;虍惓#⒄f話人的實(shí)時狀態(tài)作為動態(tài)驗(yàn)證結(jié)果;

42、其中,在特征數(shù)量大于預(yù)設(shè)數(shù)量閾值的情況下,確定說話人的實(shí)時狀態(tài)為異常,在特征數(shù)量不大于預(yù)設(shè)數(shù)量閾值的情況下,確定說話人的實(shí)時狀態(tài)為正常。

43、第二方面,本技術(shù)提供一種模型構(gòu)建方法,應(yīng)用于電子設(shè)備,電子設(shè)備存儲有身份參考模型和狀態(tài)基線模型,身份參考模型的構(gòu)建方法包括:

44、獲取授權(quán)人員信息;

45、對于授權(quán)人員信息中的每個授權(quán)人員,采集在多種發(fā)聲場景下的語音樣本集;

46、從語音樣本集中提取每個授權(quán)人員的深度聲紋特征;

47、對深度聲紋特征進(jìn)行聚合處理,生成與每個授權(quán)人員對應(yīng)的身份參考模型;

48、狀態(tài)基線模型的構(gòu)建方法包括:

49、獲取授權(quán)人員信息;

50、對于授權(quán)人員信息中的每個授權(quán)人員,采集在多種發(fā)聲場景下的語音樣本集;

51、從語音樣本集中選取表示正常工作狀態(tài)下的語音片段;

52、在語音片段中提取每個授權(quán)人員的狀態(tài)評估聲學(xué)特征集,其中,狀態(tài)評估聲學(xué)特征集包括基頻統(tǒng)計(jì)量、抖動值、微顫值、能量特征和語速特征中的一種或多種;

53、計(jì)算每個狀態(tài)評估聲學(xué)特征集在正常工作狀態(tài)下的統(tǒng)計(jì)分布參數(shù),統(tǒng)計(jì)分布參數(shù)包括均值和/或標(biāo)準(zhǔn)差;

54、基于統(tǒng)計(jì)分布參數(shù),為每個狀態(tài)評估聲學(xué)特征集確定一個正常值范圍,生成與每個授權(quán)人員對應(yīng)的狀態(tài)基線模型。

55、第三方面,本技術(shù)提供一種電子設(shè)備,包括:

56、存儲器,被配置成存儲指令;以及

57、處理器,被配置成從所述存儲器調(diào)用所述指令以及在執(zhí)行所述指令時能夠?qū)崿F(xiàn)上述的模型構(gòu)建方法。

58、第四方面,本技術(shù)提供一種聲紋識別系統(tǒng),包括:

59、入口聲紋識別裝置;

60、內(nèi)部聲紋識別裝置;

61、電子設(shè)備,與入口聲紋識別裝置和內(nèi)部聲紋識別裝置均連接。

62、通過上述技術(shù)方案,相較于傳統(tǒng)的單點(diǎn)、靜態(tài)身份驗(yàn)證方式,極大地增強(qiáng)了安全性,具體來說,入口處的隨機(jī)指令有效防止了錄音重放攻擊,而內(nèi)部持續(xù)監(jiān)控則彌補(bǔ)了單次驗(yàn)證后可能出現(xiàn)的身份冒用或權(quán)限濫用風(fēng)險。其次,通過引入角色和實(shí)時上下文信息,使得權(quán)限驗(yàn)證和行為規(guī)范判斷更加精細(xì)化和智能化,能夠根據(jù)實(shí)際情況動態(tài)調(diào)整規(guī)則,提高了管理的靈活性和準(zhǔn)確性。加入了對說話人實(shí)時狀態(tài)聲學(xué)特征的動態(tài)驗(yàn)證,可以及時發(fā)現(xiàn)因人員疲勞、緊張等異常狀態(tài)可能引發(fā)的操作風(fēng)險,為高風(fēng)險環(huán)境提供了一層額外的安全保障。此外,利用麥克風(fēng)陣列、聲源定位和波束形成等技術(shù),提升了在復(fù)雜噪聲和多人說話環(huán)境下的語音提取和識別能力,最終實(shí)現(xiàn)了對預(yù)定操作場景內(nèi)人員活動的全程監(jiān)控。不僅提高了操作的規(guī)范性和安全性,減少了人為錯誤或違規(guī)行為的可能性,還為事后追溯和審計(jì)提供了詳實(shí)的聲學(xué)證據(jù)和狀態(tài)記錄,對于需要高度信任和嚴(yán)格流程控制的場景具有重要的應(yīng)用價值。

63、本技術(shù)實(shí)施例的其它特征和優(yōu)點(diǎn)將在隨后的具體實(shí)施方式部分予以詳細(xì)說明。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1