本發(fā)明屬于ai與ivr領(lǐng)域,尤其是涉及一種基于ai的智能語(yǔ)音客服系統(tǒng)。
背景技術(shù):
1、在電話語(yǔ)音客服系統(tǒng)中,人力成本一直是主要的開銷之一,如何把客服系統(tǒng)中的人力成本降低是一個(gè)值得研究的問(wèn)題。近幾年,隨著人工智能技術(shù)的發(fā)展,智能電話客服也逐步應(yīng)用到各個(gè)企業(yè)的客服系統(tǒng)中,用于代替部分人工客服并提高人工客服接聽(tīng)效率,另一方面現(xiàn)有的ai語(yǔ)音客服在ai語(yǔ)音輸出時(shí)無(wú)法及時(shí)響應(yīng)用戶的語(yǔ)音輸入,用戶無(wú)法打斷ai語(yǔ)音輸出,導(dǎo)致用戶體驗(yàn)不佳。
技術(shù)實(shí)現(xiàn)思路
1、本實(shí)施例的目的在于提供一種基于ai的智能語(yǔ)音客服系統(tǒng),用于提高人工客服接聽(tīng)效率和解決ai語(yǔ)音輸出時(shí)無(wú)法及時(shí)響應(yīng)用戶的語(yǔ)音輸入,用戶無(wú)法打斷ai語(yǔ)音輸出的問(wèn)題。
2、一種基于ai的智能語(yǔ)音客服系統(tǒng),包括:
3、實(shí)時(shí)語(yǔ)音輸入及實(shí)時(shí)打斷模塊:用于實(shí)時(shí)語(yǔ)音輸入與實(shí)時(shí)語(yǔ)音打斷,其中所述實(shí)時(shí)語(yǔ)音輸入包括接收語(yǔ)音流及執(zhí)行語(yǔ)音檢測(cè)指令,其中所述語(yǔ)音檢測(cè)指令包括活躍性檢測(cè)指令和非活躍性檢測(cè)指令,包括vad模塊檢測(cè)到n個(gè)連續(xù)音頻塊中存在70%以上的音頻塊為活躍語(yǔ)音塊,判定為活躍語(yǔ)音段開始;包括vad模塊檢測(cè)到n個(gè)連續(xù)音頻塊中存在70%以上的音頻塊為非活躍語(yǔ)音塊,判定為非活躍語(yǔ)音段開始;進(jìn)一步還包括執(zhí)行語(yǔ)音段延伸指令,所述語(yǔ)音段延伸指令包括將活躍語(yǔ)音段之前的t個(gè)語(yǔ)音塊和活躍語(yǔ)音塊之后的t個(gè)語(yǔ)音塊與活躍語(yǔ)音段前后連接組成輸入語(yǔ)音段;進(jìn)一步的還包括執(zhí)行網(wǎng)絡(luò)發(fā)送指令將所述輸入語(yǔ)音段發(fā)送tts模塊執(zhí)行語(yǔ)音轉(zhuǎn)文本指令;其中所述實(shí)時(shí)打斷模塊包括語(yǔ)音活躍段開始通知指令,當(dāng)實(shí)時(shí)語(yǔ)音輸入模塊檢測(cè)到活躍語(yǔ)音段開始,則發(fā)指令通知大模型輸出模塊,執(zhí)行大模型輸出停止指令,并發(fā)指令通知ai語(yǔ)音播放模塊,停止ai語(yǔ)音播放;
4、ivr模塊:用于接收用戶電話按鍵操作并解析按鍵數(shù)值,包括:dtmf解析模塊,用于解析dtmf信號(hào)作為用戶按鍵輸入和語(yǔ)音接收模塊,用于通過(guò)語(yǔ)音板卡的語(yǔ)音通道接收用戶語(yǔ)音數(shù)據(jù);
5、系統(tǒng)狀態(tài)切換模塊:用于語(yǔ)音的vad檢測(cè)和dtmf狀態(tài)切換;
6、大語(yǔ)言模型輸出與實(shí)時(shí)語(yǔ)音合成模塊:用于大語(yǔ)言模型(llm)的輸出文字轉(zhuǎn)換為文字句子并由語(yǔ)音合成模塊逐句執(zhí)行語(yǔ)音合成輸出。
7、進(jìn)一步的,執(zhí)行語(yǔ)音檢測(cè)指令還包括如果先識(shí)別到活躍語(yǔ)音段開始,進(jìn)一步識(shí)別到非活躍語(yǔ)音段開始,則判定為活躍語(yǔ)音段結(jié)束。
8、進(jìn)一步的,t包括5,所述n包括10。
9、進(jìn)一步的,大模型輸出停止指令包括停止接收大模型輸出語(yǔ)句轉(zhuǎn)tts音頻指令和音頻音量強(qiáng)度遞降指令。
10、進(jìn)一步的,音頻音量強(qiáng)度遞降指令包括每次遞減音量為上次音量強(qiáng)度的50%。
11、進(jìn)一步的,vad模塊,包括python場(chǎng)景下的webrtcvad模塊。
12、進(jìn)一步的,ivr模塊還包括響應(yīng)用戶按鍵輸入dtmf字串檢測(cè)到結(jié)束按鍵時(shí)啟動(dòng)vad檢測(cè)線程。
13、進(jìn)一步的,系統(tǒng)狀態(tài)切換模塊還包括檢測(cè)dtmf輸入時(shí)切換接收dtmf延時(shí)解碼器用于執(zhí)行dtmf解碼。
14、進(jìn)一步的,大語(yǔ)言模型輸出還包括執(zhí)行自然語(yǔ)言斷句指令輸出獨(dú)立斷句句子,其中所述自然語(yǔ)言斷句指令包括python場(chǎng)景下的hanlp庫(kù)完成指令執(zhí)行。
15、進(jìn)一步的,實(shí)時(shí)語(yǔ)音合成模塊還包括根據(jù)獨(dú)立斷句句子執(zhí)行語(yǔ)音合成指令生成語(yǔ)音音頻。
16、本發(fā)明提供的一種基于ai的智能語(yǔ)音客服系統(tǒng),用于解決人工客服接聽(tīng)效率低下及ai語(yǔ)音輸出時(shí)無(wú)法及時(shí)響應(yīng)用戶的語(yǔ)音輸入,用戶無(wú)法打斷ai語(yǔ)音輸出的問(wèn)題。
17、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說(shuō)明如下。
1.一種基于ai的智能語(yǔ)音客服系統(tǒng),其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述執(zhí)行語(yǔ)音檢測(cè)指令還包括如果先識(shí)別到活躍語(yǔ)音段開始,進(jìn)一步識(shí)別到非活躍語(yǔ)音段開始,則判定為活躍語(yǔ)音段結(jié)束。
3.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述t包括5,所述n包括10。
4.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述大模型輸出停止指令包括停止接收大模型輸出語(yǔ)句轉(zhuǎn)tts音頻指令和音頻音量強(qiáng)度遞降指令。
5.根據(jù)權(quán)利要求4所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述音頻音量強(qiáng)度遞降指令包括每次遞減音量為上次音量強(qiáng)度的50%。
6.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述vad模塊,包括python場(chǎng)景下的webrtcvad模塊。
7.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述ivr模塊還包括響應(yīng)用戶按鍵輸入dtmf字串檢測(cè)到結(jié)束按鍵時(shí)啟動(dòng)vad檢測(cè)線程。
8.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述系統(tǒng)狀態(tài)切換模塊還包括檢測(cè)dtmf輸入時(shí)切換接收dtmf延時(shí)解碼器用于執(zhí)行dtmf解碼。
9.根據(jù)權(quán)利要求1所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述大語(yǔ)言模型輸出還包括執(zhí)行自然語(yǔ)言斷句指令輸出獨(dú)立斷句句子,其中所述自然語(yǔ)言斷句指令包括python場(chǎng)景下的hanlp庫(kù)完成指令執(zhí)行。
10.根據(jù)權(quán)利要求1和9所述的ivr場(chǎng)景下的智能語(yǔ)音客服系統(tǒng),其特征在于,所述實(shí)時(shí)語(yǔ)音合成模塊還包括根據(jù)獨(dú)立斷句句子執(zhí)行語(yǔ)音合成指令生成語(yǔ)音音頻。