本公開涉及人工智能,尤其涉及一種拒識方法、裝置、存儲介質(zhì)、設(shè)備及車輛。
背景技術(shù):
1、在機器與用戶連續(xù)對話的場景中,如果機器錯誤地響應(yīng)了連續(xù)對話中的噪聲或非人機指令,不僅會給交互體驗帶來極大的負(fù)面影響,而且可能導(dǎo)致機器執(zhí)行錯誤的指令,影響例如行車安全。
2、相關(guān)場景中,可以基于語音和語義的分析排除噪聲或非人機指令,例如識別音頻中的噪音、檢測對話中的語法錯誤、理解對話中的語義含義等。其準(zhǔn)確性較低,并且這些都是場景中,麥克風(fēng)一直處于開啟狀態(tài),非人機查詢占比非常高。如果對非人機指令進行響應(yīng),會影響已有任務(wù)的執(zhí)行,給用戶帶來干擾。
技術(shù)實現(xiàn)思路
1、為克服相關(guān)技術(shù)中存在的問題,本公開提供一種拒識方法、裝置、存儲介質(zhì)、設(shè)備及車輛。
2、根據(jù)本公開實施例的第一方面,提供一種拒識方法,包括:
3、對獲取到的音頻信號分別進行聲學(xué)編碼和識別,得到聲學(xué)編碼特征和語義文本特征;
4、對與所述音頻信號同時獲取到的視頻信號進行視覺特征提取,得到目標(biāo)視覺特征;
5、將所述目標(biāo)視覺特征、所述語義文本特征和所述聲學(xué)編碼特征輸入預(yù)先訓(xùn)練的多模態(tài)大模型中,得到所述多模態(tài)大模型輸出的拒識結(jié)果;
6、其中,所述多模態(tài)大模型是通過與樣本音頻對應(yīng)的tokens、文本查詢、nlp意圖和樣本視頻對應(yīng)的tokens對預(yù)訓(xùn)練后的初始多模態(tài)大模型進行微調(diào)得到,其中,所述預(yù)訓(xùn)練后的初始多模態(tài)大模型是通過所述樣本音頻、與所述樣本音頻對應(yīng)的文本查詢和nlp意圖對初始多模態(tài)大模型進行預(yù)訓(xùn)練得到的。
7、根據(jù)本公開實施例的第二方面,提供一種拒識裝置,包括:
8、編碼及識別模塊,被配置為對獲取到的音頻信號分別進行聲學(xué)編碼和識別,得到聲學(xué)編碼特征和語義文本特征;
9、提取模塊,被配置為對與所述音頻信號同時獲取到的視頻信號進行視覺特征提取,得到目標(biāo)視覺特征;
10、輸入模塊,被配置為將所述目標(biāo)視覺特征、所述語義文本特征和所述聲學(xué)編碼特征輸入預(yù)先訓(xùn)練的多模態(tài)大模型中,得到所述多模態(tài)大模型輸出的拒識結(jié)果;
11、其中,所述多模態(tài)大模型是通過與樣本音頻對應(yīng)的tokens、文本查詢、nlp意圖和樣本視頻對應(yīng)的tokens對預(yù)訓(xùn)練后的初始多模態(tài)大模型進行微調(diào)得到,其中,所述預(yù)訓(xùn)練后的初始多模態(tài)大模型是通過所述樣本音頻、與所述樣本音頻對應(yīng)的文本查詢和nlp意圖對初始多模態(tài)大模型進行預(yù)訓(xùn)練得到的。
12、根據(jù)本公開實施例的第三方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,該程序指令被處理器執(zhí)行時實現(xiàn)第一方面中任一項所述方法的步驟。
13、根據(jù)本公開實施例的第四方面,提供一種電子設(shè)備,包括:
14、處理器;
15、用于存儲處理器可執(zhí)行指令的存儲器;
16、其中,所述處理器被配置為執(zhí)行所述存儲器中存儲的所述可執(zhí)行指令,以實現(xiàn)第一方面中任一項所述方法。
17、根據(jù)本公開實施例的第五方面,提供一種車輛,包括:
18、處理器;
19、用于存儲處理器可執(zhí)行指令的存儲器;
20、其中,所述處理器被配置為執(zhí)行所述存儲器中存儲的所述可執(zhí)行指令,以實現(xiàn)第一方面中任一項所述方法。
21、本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
22、對獲取到的音頻信號進行聲學(xué)編碼和識別,得到聲學(xué)編碼特征和語義文本特征;對與音頻信號同時獲取到的視頻信號進行視覺特征提取,得到目標(biāo)視覺特征;將目標(biāo)視覺特征、語義文本特征和聲學(xué)編碼特征輸入預(yù)先訓(xùn)練的多模態(tài)大模型中,得到拒識結(jié)果;多模態(tài)大模型是通過與樣本音頻對應(yīng)的tokens、文本查詢、nlp意圖和樣本視頻對應(yīng)的tokens對預(yù)訓(xùn)練后的初始多模態(tài)大模型微調(diào)得到,其中,預(yù)訓(xùn)練后的初始多模態(tài)大模型是通過樣本音頻、與樣本音頻對應(yīng)的文本查詢和nlp意圖對初始多模態(tài)大模型預(yù)訓(xùn)練得到。通過將視頻信號對應(yīng)的目標(biāo)視覺特征、音頻信號對應(yīng)的語義文本特征和聲學(xué)編碼特征的多個不同模態(tài)的特征進行多模態(tài)融合,得到拒識結(jié)果,其處理方式與人類處理信息方式更為相似,不僅可以提高語音識別與場景的適配性和靈活性,還可以提高語音識別的準(zhǔn)確性。
23、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
1.一種拒識方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多模態(tài)大模型是通過如下方式訓(xùn)練得到的:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)與所述樣本音頻對應(yīng)的樣本視頻,生成所述樣本視頻對應(yīng)的tokens,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)視覺特征、所述語義文本特征和所述聲學(xué)編碼特征輸入預(yù)先訓(xùn)練的多模態(tài)大模型中,得到所述多模態(tài)大模型輸出的拒識結(jié)果,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,對獲取到的音頻信號進行聲學(xué)編碼,得到聲學(xué)編碼特征,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述針對獲取到的所述音頻信號提取實數(shù)化的向量表示,得到多個音頻特征向量,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語義文本特征包括:編碼文本特征、解碼文本特征和nlu語義文本特征;
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,對多個所述語句進行編碼,生成所述編碼文本特征,包括:
9.根據(jù)權(quán)利要求1-8中任一項所述的方法,其特征在于,所述對與所述音頻信號同時獲取到的視頻信號進行視覺特征提取,得到目標(biāo)視覺特征,包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述預(yù)先定義的動作包括以下至少一者:唇動、注視屏幕、打電話、與對話對象說話。
11.一種拒識裝置,其特征在于,包括:
12.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序指令,其特征在于,該程序指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-10中任一項所述方法的步驟。
13.一種電子設(shè)備,其特征在于,包括:
14.一種車輛,其特征在于,包括: