本發(fā)明涉及智能售貨,尤其涉及一種基于多模態(tài)數(shù)據(jù)處理的多目標(biāo)商品識別方法、裝置及系統(tǒng)。
背景技術(shù):
1、智能售貨柜作為一種常見的無人售貨設(shè)備,廣泛應(yīng)用于多個(gè)領(lǐng)域,如購物、食品、飲料和日常用品等。傳統(tǒng)的智能售貨柜主要依靠條形碼或二維碼掃描來識別商品,這種方式通常依賴人工輸入商品信息并進(jìn)行標(biāo)簽匹配。然而,這種方法存在局限性,例如對商品的遮擋、重疊或者位置變化等情況無法有效識別。此外,手動(dòng)標(biāo)注的標(biāo)簽信息容易出現(xiàn)錯(cuò)誤,尤其在商品更新頻繁的情況下,造成售貨柜無法及時(shí)適應(yīng)新商品的展示和識別。因此,如何高效、精準(zhǔn)地在動(dòng)態(tài)環(huán)境下進(jìn)行商品識別,尤其是處理多個(gè)商品目標(biāo)同時(shí)出現(xiàn)、遮擋和重疊等復(fù)雜場景,成為智能售貨柜智能化升級的核心問題。
2、現(xiàn)有技術(shù)在多商品目標(biāo)的識別中通常依賴于單一的視覺信息或者文本信息,難以應(yīng)對動(dòng)態(tài)交易場景下的復(fù)雜情況。例如,基于傳統(tǒng)的圖像識別方法,模型在處理遮擋和重疊商品時(shí),容易出現(xiàn)錯(cuò)誤識別或漏識別現(xiàn)象。同時(shí),文本信息提取也面臨著標(biāo)簽不清晰、模糊或位置變化的挑戰(zhàn),且現(xiàn)有方法多為單一模態(tài)的處理,缺乏對視覺信息、空間信息及語義信息的綜合分析。因此,現(xiàn)有技術(shù)無法滿足智能售貨柜在復(fù)雜場景下的實(shí)時(shí)、準(zhǔn)確商品識別需求。
3、現(xiàn)有中國專利cn114445201a公開了一種基于多模態(tài)預(yù)訓(xùn)練模型的組合商品檢索方法及系統(tǒng),包括:將商品圖像劃分為單品圖像和組合品圖像;訓(xùn)練一個(gè)組合商品圖像檢測器;獲取并結(jié)合組合商品圖像中文本模態(tài)和圖片模塊的特征編碼、位置編碼和分段編碼,學(xué)習(xí)嵌入表示,并輸入構(gòu)建好的多模態(tài)預(yù)訓(xùn)練模型;采用多模態(tài)預(yù)訓(xùn)練模型提取單品圖像的圖片模態(tài)和文本模態(tài)的檢索特征;多模態(tài)預(yù)訓(xùn)練模型根據(jù)組合品圖像中每個(gè)目標(biāo)商品的邊界框及邊界框特征,提取組合品圖像圖文融合的檢索特征,計(jì)算組合品特征與檢索庫中單品特征的預(yù)先距離作為商品相似度,選取最相似的單品作為結(jié)果返回。上述專利方案無法準(zhǔn)確地處理商品之間的遮擋、重疊等情況,以及無法應(yīng)對不同商品特征和文本描述之間的差異性,因此,難以保證在實(shí)際場景中準(zhǔn)確地進(jìn)行商品識別。
4、為此,如何在多目標(biāo)場景下準(zhǔn)確地進(jìn)行商品識別是亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標(biāo)商品識別方法、裝置及系統(tǒng),用以解決現(xiàn)有技術(shù)中無法在多目標(biāo)場景下準(zhǔn)確地進(jìn)行商品識別的問題。
2、本發(fā)明采用的技術(shù)方案是:
3、第一方面,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標(biāo)商品識別方法,所述方法包括:
4、獲取商品交易場景下的實(shí)時(shí)視頻數(shù)據(jù),將所述實(shí)時(shí)視頻數(shù)據(jù)分解為多幀實(shí)時(shí)圖像;
5、對所述實(shí)時(shí)圖像進(jìn)行預(yù)處理和標(biāo)簽信息提取,確定預(yù)處理后的目標(biāo)圖像和商品標(biāo)簽對應(yīng)的文字信息;
6、對所述目標(biāo)圖像進(jìn)行實(shí)例分割,確定商品位置信息;
7、根據(jù)所述商品位置信息,對所述目標(biāo)圖像進(jìn)行特征提取,確定商品圖像特征信息;
8、根據(jù)預(yù)收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進(jìn)行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型;
9、將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進(jìn)行信息融合,根據(jù)融合特征信息,確定商品目標(biāo)識別結(jié)果。
10、優(yōu)選地,所述對所述實(shí)時(shí)圖像進(jìn)行預(yù)處理和標(biāo)簽信息提取,確定預(yù)處理后的目標(biāo)圖像和商品標(biāo)簽對應(yīng)的文字信息包括:
11、對所述實(shí)時(shí)圖像進(jìn)行尺寸調(diào)整和降噪處理,確定所述目標(biāo)圖像;
12、對所述目標(biāo)圖像進(jìn)行目標(biāo)檢測,確定商品區(qū)域位置信息;
13、根據(jù)所述商品區(qū)域位置信息,通過光學(xué)字符識別技術(shù)對商品區(qū)域中的商品標(biāo)簽進(jìn)行處理,確定所述文字信息。
14、優(yōu)選地,所述對所述目標(biāo)圖像進(jìn)行實(shí)例分割,確定商品位置信息包括:
15、根據(jù)所述商品區(qū)域位置信息,通過卷積神經(jīng)網(wǎng)絡(luò)提取商品區(qū)域的特征信息,并根據(jù)提取出的特征信息確定候選區(qū)域;
16、通過實(shí)例分割網(wǎng)絡(luò)對所述候選區(qū)域進(jìn)行處理,確定各商品目標(biāo)對應(yīng)的二值圖像;
17、利用后處理技術(shù),對所述二值圖像進(jìn)行處理,確定所述商品位置信息。
18、優(yōu)選地,所述根據(jù)預(yù)收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進(jìn)行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型包括:
19、根據(jù)預(yù)收集的智能售貨場景下的多源原始數(shù)據(jù),對多源原始數(shù)據(jù)進(jìn)行清洗和結(jié)構(gòu)化處理,得到標(biāo)注數(shù)據(jù)集;
20、根據(jù)標(biāo)注數(shù)據(jù)集中的圖像信息與文本標(biāo)簽,對圖文數(shù)據(jù)進(jìn)行配對構(gòu)建,并對其進(jìn)行格式轉(zhuǎn)換與統(tǒng)一預(yù)處理,得到用于訓(xùn)練的多模態(tài)輸入樣本集;
21、根據(jù)多模態(tài)輸入樣本集,對開源視覺語言預(yù)訓(xùn)練模型加載權(quán)重參數(shù),并構(gòu)建支持聯(lián)合優(yōu)化的視覺編碼與語言編碼網(wǎng)絡(luò)結(jié)構(gòu),得到用于微調(diào)的多模態(tài)模型初始結(jié)構(gòu);
22、根據(jù)售貨場景特性與識別精度要求,對所述多模態(tài)模型初始結(jié)構(gòu)執(zhí)行微調(diào)訓(xùn)練,并通過交叉驗(yàn)證策略優(yōu)化超參數(shù)配置,得到多個(gè)候選多模態(tài)模型;
23、根據(jù)預(yù)設(shè)的準(zhǔn)確率、召回率和響應(yīng)時(shí)間,對各所述候選多模態(tài)模型進(jìn)行評估與比選,得到所述多模態(tài)大模型。
24、優(yōu)選地,所述將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進(jìn)行信息融合,根據(jù)融合特征信息,確定商品目標(biāo)識別結(jié)果包括:
25、將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中,得到融合圖像特征和文字語義的融合特征信息;
26、將所述融合特征信息輸入預(yù)訓(xùn)練的商品分類模型中,得到初始商品類別;
27、根據(jù)所述初始商品類別,判斷當(dāng)前初始商品類別中是否存在相似商品;
28、當(dāng)存在相似商品時(shí),根據(jù)所述初始商品類別,獲取待提取特征的局部區(qū)域和待提取的目標(biāo)特征;
29、根據(jù)所述局部區(qū)域和所述目標(biāo)特征,對所述目標(biāo)圖像進(jìn)行特征提取,得到局部區(qū)域特征信息;
30、根據(jù)所述局部區(qū)域特征信息,對所述初始商品類別進(jìn)行分類,得到目標(biāo)商品類別作為所述商品目標(biāo)識別結(jié)果。
31、優(yōu)選地,所述當(dāng)存在相似商品時(shí),根據(jù)所述初始商品類別,獲取待提取特征的局部區(qū)域和待提取的目標(biāo)特征包括:
32、根據(jù)所述初始商品類別,從預(yù)設(shè)的商品圖像數(shù)據(jù)庫中選取該類別下的多個(gè)子類別分別對應(yīng)的樣本圖像;
33、將各所述樣本圖像輸入預(yù)訓(xùn)練的顯著性檢測模型中,得到顯著性熱圖,其中,所述顯著性熱圖用于表征樣本圖像中對視覺特征注意力最集中的區(qū)域;
34、對所述顯著性熱圖進(jìn)行閾值分割,得到多個(gè)候選區(qū)域;
35、對各所述候選區(qū)域進(jìn)行綜合評分,根據(jù)評分結(jié)果,從各所述候選區(qū)域中篩選得到所述局部區(qū)域;
36、對所述局部區(qū)域進(jìn)行候選特征提取和特征評估,根據(jù)特征評估結(jié)果,從提取的候選特征中篩選得到所述目標(biāo)特征。
37、優(yōu)選地,所述對各所述候選區(qū)域進(jìn)行綜合評分,根據(jù)評分結(jié)果,得到所述局部區(qū)域包括:
38、獲取各候選區(qū)域?qū)?yīng)的顯著性熱圖中的顯著值;
39、根據(jù)各所述顯著值,計(jì)算各候選區(qū)域的平均顯著值作為顯著性評分值;
40、根據(jù)所述初始商品類別,將各所述樣本圖像輸入預(yù)訓(xùn)練的圖像分類模型中,得到類別激活圖;
41、根據(jù)所述類別激活圖,獲取各樣本圖像在當(dāng)前初始商品類別下的響應(yīng)熱圖;
42、對各所述候選區(qū)域在所述響應(yīng)熱圖中對應(yīng)位置的像素進(jìn)行統(tǒng)計(jì),計(jì)算各候選區(qū)域的平均激活強(qiáng)度作為類別相關(guān)評分值;
43、對各候選區(qū)域的所述顯著性評分值與所述類別相關(guān)評分值進(jìn)行加權(quán)融合,得到各候選區(qū)域的所述評分結(jié)果;
44、將各所述評分結(jié)果和預(yù)設(shè)的評分閾值進(jìn)行比較,根據(jù)比較結(jié)果,從各候選區(qū)域中選取至少一個(gè)區(qū)域作為所述局部區(qū)域。
45、優(yōu)選地,所述對所述局部區(qū)域進(jìn)行候選特征提取和特征評估,根據(jù)特征評估結(jié)果,從提取的候選特征中篩選得到所述目標(biāo)特征包括:
46、根據(jù)所述初始商品類別,獲取該類別對應(yīng)的各候選特征對應(yīng)的特征提取策略;
47、根據(jù)各所述特征提取策略,對所述局部區(qū)域進(jìn)行多路徑特征提取,得到多個(gè)候選特征信息;
48、對各所述候選特征信息在各所述樣本圖像中進(jìn)行分布一致性分析,獲取各候選特征信息在不同樣本圖像中出現(xiàn)的頻率與位置偏差作為分布一致性指標(biāo);
49、將各所述候選特征信息分別輸入預(yù)訓(xùn)練的商品識別模型中,得到識別結(jié)果,并獲取所述識別結(jié)果對應(yīng)的分類置信度作為各候選特征信息的分類響應(yīng)強(qiáng)度;
50、根據(jù)所述的分布一致性指標(biāo)與分類響應(yīng)強(qiáng)度,對各所述候選特征信息進(jìn)行評估,得到特征評估結(jié)果;
51、根據(jù)特征評估結(jié)果,從各所述候選特征信息中篩選出所述目標(biāo)特征。
52、第二方面,本發(fā)明提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標(biāo)商品識別裝置,所述裝置包括:
53、實(shí)時(shí)圖像獲取模塊,用于獲取商品交易場景下的實(shí)時(shí)視頻數(shù)據(jù),將所述實(shí)時(shí)視頻數(shù)據(jù)分解為多幀實(shí)時(shí)圖像;
54、預(yù)處理和標(biāo)簽信息提取模塊,用于對所述實(shí)時(shí)圖像進(jìn)行預(yù)處理和標(biāo)簽信息提取,確定預(yù)處理后的目標(biāo)圖像和商品標(biāo)簽對應(yīng)的文字信息;
55、實(shí)例分割模塊,用于對所述目標(biāo)圖像進(jìn)行實(shí)例分割,確定商品位置信息;
56、特征提取模塊,用于根據(jù)所述商品位置信息,對所述目標(biāo)圖像進(jìn)行特征提取,確定商品圖像特征信息;
57、多模態(tài)大模型訓(xùn)練模塊,用于根據(jù)預(yù)收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進(jìn)行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型;
58、商品識別模塊,用于將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進(jìn)行信息融合,根據(jù)融合特征信息,確定商品目標(biāo)識別結(jié)果。
59、第三方面,本發(fā)明實(shí)施例還提供了一種基于多模態(tài)數(shù)據(jù)處理的多目標(biāo)商品識別系統(tǒng),包括:圖像采集設(shè)備、至少一個(gè)處理器、至少一個(gè)存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中的計(jì)算機(jī)程序指令,當(dāng)所述計(jì)算機(jī)程序指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述的方法。
60、綜上所述,本發(fā)明的有益效果如下:
61、本發(fā)明提供的基于多模態(tài)數(shù)據(jù)處理的多目標(biāo)商品識別方法、裝置及系統(tǒng),包括:獲取商品交易場景下的實(shí)時(shí)視頻數(shù)據(jù),將所述實(shí)時(shí)視頻數(shù)據(jù)分解為多幀實(shí)時(shí)圖像;對所述實(shí)時(shí)圖像進(jìn)行預(yù)處理和標(biāo)簽信息提取,確定預(yù)處理后的目標(biāo)圖像和商品標(biāo)簽對應(yīng)的文字信息;對所述目標(biāo)圖像進(jìn)行實(shí)例分割,確定商品位置信息;根據(jù)所述商品位置信息,對所述目標(biāo)圖像進(jìn)行特征提取,確定商品圖像特征信息;根據(jù)預(yù)收集的智能售貨場景下的多源私有化數(shù)據(jù),對開源多模態(tài)視覺語言模型進(jìn)行微調(diào)與優(yōu)化處理,得到用于商品識別的多模態(tài)大模型;將所述商品圖像特征信息和所述文字信息輸入所述多模態(tài)大模型中進(jìn)行信息融合,根據(jù)融合特征信息,確定商品目標(biāo)識別結(jié)果。本發(fā)明從實(shí)時(shí)視頻數(shù)據(jù)中提取多幀圖像,并通過預(yù)處理與標(biāo)簽信息提取,對每一幀圖像中的商品進(jìn)行初步識別,提取商品標(biāo)簽和對應(yīng)文字信息,接著,通過實(shí)例分割技術(shù)對目標(biāo)圖像進(jìn)行處理,精準(zhǔn)定位每個(gè)商品的邊界框并解決商品之間的遮擋問題,利用商品位置信息進(jìn)一步提取圖像特征,包括視覺特征、空間特征和語義特征,通過多模態(tài)大模型進(jìn)行信息融合,將商品圖像特征與提取的文本信息進(jìn)行結(jié)合,提升對復(fù)雜商品目標(biāo)的辨識能力,最后,基于圖像和文本信息的融合,模型能夠準(zhǔn)確區(qū)分并識別出多個(gè)商品目標(biāo),即使在多個(gè)商品同時(shí)存在且存在部分重疊或遮擋的復(fù)雜環(huán)境中,仍能保持高效的識別性能,不僅提高了識別精度,還能夠在動(dòng)態(tài)場景中穩(wěn)定運(yùn)行,滿足多目標(biāo)識別需求。