本申請涉及視頻處理,尤其涉及一種視線估計方法、裝置及設(shè)備。
背景技術(shù):
1、視線估計(gaze?estimation)是與眼球、眼動、視線等相關(guān)的技術(shù),以面部圖像(包括面部區(qū)域和眼睛區(qū)域)為處理對象,在視線估計中,基于面部圖像估計出用戶的視線方向,并結(jié)合區(qū)域坐標(biāo)獲取與該視線方向相交的注視點坐標(biāo)。
2、視線估計可以應(yīng)用于游戲、vr、輔助駕駛(智能座艙)、屏幕類應(yīng)用(如手機解鎖、短視頻特效等)等場景。其中,在游戲場景中,通過視線估計進行游戲互動。在vr場景中,通過頭盔內(nèi)置攝像頭準(zhǔn)確估計用戶的視線方向,從而對場景進行局部精細渲染。在輔助駕駛場景中,通過分析用戶的視線方向,檢測駕駛員是否疲勞駕駛及注意力是否集中,提升安全性。在屏幕類應(yīng)用場景中,通過視線估計進行交互。在屏幕類應(yīng)用場景中,還可以通過視線分析獲知用戶的專注度,對課堂、或者商品、或者視頻進行打分,估計用戶興趣等。
3、但是,面部圖像除了包括有效的人眼區(qū)域信息,還會包括大量視線無關(guān)特征,如身份特征(如臉型、眉毛、嘴巴、鼻子等),表情變化(如微笑、大哭、大笑等),紋理屬性(如頭發(fā)、胡須的顏色、風(fēng)格)及其它特征(如性別和年齡等),這些視線無關(guān)特征損害了視線估計的泛化性能,即導(dǎo)致視線估計結(jié)果的準(zhǔn)確性大幅度下降,從而無法得到準(zhǔn)確的視線估計結(jié)果。
技術(shù)實現(xiàn)思路
1、本申請?zhí)峁┮环N視線估計方法,所述方法包括:
2、獲取待訓(xùn)練的初始視線估計模型,將樣本圖像輸入給所述初始視線估計模型,得到視線圖像特征、視線相關(guān)特征和視線預(yù)測值;
3、將所述樣本圖像輸入給圖像編碼器,得到面部圖像特征;
4、將視線無關(guān)描述文本輸入給文本編碼器,得到視線無關(guān)特征;其中,所述視線無關(guān)描述文本用于描述所述樣本圖像中與視線無關(guān)的干擾信息;
5、基于所述視線圖像特征、所述視線相關(guān)特征、所述視線預(yù)測值、所述面部圖像特征、所述視線無關(guān)特征和視線標(biāo)簽值確定目標(biāo)損失值;
6、基于目標(biāo)損失值對初始視線估計模型的網(wǎng)絡(luò)參數(shù)進行調(diào)整,得到已訓(xùn)練的目標(biāo)視線估計模型,所述目標(biāo)視線估計模型用于基于待檢測圖像進行視線估計。
7、本申請?zhí)峁┮环N視線估計裝置,所述裝置包括:
8、獲取模塊,用于獲取待訓(xùn)練的初始視線估計模型,將樣本圖像輸入給所述初始視線估計模型,得到視線圖像特征、視線相關(guān)特征和視線預(yù)測值;將所述樣本圖像輸入給已獲取的圖像編碼器,得到面部圖像特征;將視線無關(guān)描述文本輸入給已獲取的文本編碼器,得到視線無關(guān)特征;其中,所述視線無關(guān)描述文本用于描述所述樣本圖像中與視線無關(guān)的干擾信息;
9、確定模塊,用于基于所述視線圖像特征、所述視線相關(guān)特征、所述視線預(yù)測值、所述面部圖像特征、所述視線無關(guān)特征和視線標(biāo)簽值確定目標(biāo)損失值;
10、處理模塊,用于基于所述目標(biāo)損失值對所述初始視線估計模型的網(wǎng)絡(luò)參數(shù)進行調(diào)整,得到已訓(xùn)練的目標(biāo)視線估計模型;其中,所述目標(biāo)視線估計模型用于基于待檢測圖像進行視線估計。
11、本申請?zhí)峁┮环N電子設(shè)備,包括:處理器和機器可讀存儲介質(zhì),所述機器可讀存儲介質(zhì)存儲有能夠被所述處理器執(zhí)行的機器可執(zhí)行指令;所述處理器用于執(zhí)行機器可執(zhí)行指令,以實現(xiàn)本申請上述示例的視線估計方法。
12、由以上技術(shù)方案可見,本申請實施例中,可以將視線無關(guān)描述文本輸入給文本編碼器得到視線無關(guān)特征,視線無關(guān)描述文本用于描述樣本圖像中與視線無關(guān)的干擾信息,繼而基于視線無關(guān)特征對初始視線估計模型的網(wǎng)絡(luò)參數(shù)進行調(diào)整得到目標(biāo)視線估計模型,從而基于視線無關(guān)特征訓(xùn)練準(zhǔn)確可靠的目標(biāo)視線估計模型,在基于目標(biāo)視線估計模型進行視線估計時,可以減輕視線無關(guān)因素的干擾,減輕視線無關(guān)因素對視線估計性能的影響,能夠提高視線估計結(jié)果的準(zhǔn)確性,得到準(zhǔn)確的視線估計結(jié)果,提升目標(biāo)視線估計模型的性能。針對不同用戶的面部特征存在差異的特點,可以將不同用戶的面部個性化特征映射到文本空間,提升上下文描述面部的準(zhǔn)確性,進而提升視線無關(guān)特征描述當(dāng)前個體的準(zhǔn)確性,最終在視線估計泛化框架中提升目標(biāo)視線估計模型的魯棒性。
1.一種視線估計方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述初始視線估計模型包括視線特征提取器、多層感知機和全連接層,所述將樣本圖像輸入給所述初始視線估計模型,得到視線圖像特征、視線相關(guān)特征和視線預(yù)測值,包括:
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將視線無關(guān)描述文本輸入給文本編碼器,得到視線無關(guān)特征之前,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,
8.一種視線估計裝置,其特征在于,所述裝置包括:
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,
10.一種電子設(shè)備,其特征在于,包括:處理器和機器可讀存儲介質(zhì),所述機器可讀存儲介質(zhì)存儲有能夠被所述處理器執(zhí)行的機器可執(zhí)行指令;所述處理器用于執(zhí)行機器可執(zhí)行指令,以實現(xiàn)權(quán)利要求1-7任一所述的方法。