本申請(qǐng)涉及服務(wù)器,尤其涉及一種部件的監(jiān)控方法、電子設(shè)備及存儲(chǔ)介質(zhì)及產(chǎn)品。
背景技術(shù):
1、隨著數(shù)據(jù)量的爆發(fā)式增長(zhǎng)和網(wǎng)絡(luò)應(yīng)用的日益復(fù)雜,數(shù)據(jù)處理單元(dataprocessing?unit,dpu)作為專門用于數(shù)據(jù)處理的硬件設(shè)備,其性能和可靠性對(duì)于整個(gè)數(shù)據(jù)中心的穩(wěn)定運(yùn)行至關(guān)重要。dpu?通常集成了多個(gè)關(guān)鍵部件,如?中央處理單元(centralprocessing?unit,cpu)、內(nèi)存、高速串行計(jì)算機(jī)擴(kuò)展總線標(biāo)準(zhǔn)(peripheral?componentinterconnect?express,pcie)的設(shè)備、供電設(shè)備等,這些部件的健康狀態(tài)直接影響?dpu?的整體性能?;骞芾砜刂破鳎╞aseboard?management?controller?,bmc)作為服務(wù)器管理的重要組成部分,承擔(dān)著監(jiān)控和管理服務(wù)器硬件狀態(tài)的任務(wù)。在?dpu?的應(yīng)用場(chǎng)景中,bmc?同樣需要對(duì)?dpu?的關(guān)鍵部件進(jìn)行監(jiān)控,以便及時(shí)發(fā)現(xiàn)故障并采取相應(yīng)措施,保障系統(tǒng)的正常運(yùn)行。
2、傳統(tǒng)的bmc監(jiān)控dpu部件方式通常采用逐個(gè)查詢部件健康狀態(tài)的方式。例如,分別使用不同的i命令或接口來查詢?dpu?的?cpu?健康狀態(tài)、內(nèi)存健康狀態(tài)、pcie?設(shè)備健康狀態(tài)等。這種方式需要頻繁地發(fā)送多個(gè)查詢命令,占用大量的系統(tǒng)資源和網(wǎng)絡(luò)帶寬,且由于每個(gè)部件的查詢命令和流程可能不同,增加了監(jiān)控系統(tǒng)的復(fù)雜性和維護(hù)成本。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)?zhí)峁┝艘环N部件的監(jiān)控方法、電子設(shè)備、存儲(chǔ)介質(zhì)及產(chǎn)品,以至少解決相關(guān)技術(shù)中需要頻繁發(fā)送多個(gè)查詢命令監(jiān)控dpu部件,導(dǎo)致占用大量的系統(tǒng)資源和網(wǎng)絡(luò)帶寬的問題。
2、本申請(qǐng)?zhí)峁┝艘环N部件的監(jiān)控方法,應(yīng)用于數(shù)據(jù)處理單元卡,數(shù)據(jù)處理單元卡包括n個(gè)部件,n≥2且為正整數(shù),該方法包括:獲取n個(gè)部件中每個(gè)部件的健康狀態(tài);基于每個(gè)部件的健康狀態(tài)生成每個(gè)部件對(duì)應(yīng)的二進(jìn)制數(shù),得到n個(gè)二進(jìn)制數(shù),每個(gè)二進(jìn)制數(shù)為第一數(shù)值或第二數(shù)值,第一數(shù)值用于指示每個(gè)部件的健康狀態(tài)為健康,第二數(shù)值用于指示每個(gè)部件的健康狀態(tài)為異常;按照預(yù)設(shè)規(guī)則將n個(gè)二進(jìn)制數(shù)組成一個(gè)二進(jìn)制字符串;當(dāng)接收到主機(jī)側(cè)的基板管理控制器發(fā)送的監(jiān)控請(qǐng)求時(shí),將二進(jìn)制字符串發(fā)送給基板管理控制器。
3、本申請(qǐng)?zhí)峁┝擞忠环N部件的監(jiān)控方法,應(yīng)用于主機(jī)側(cè)的基板管理控制器,該方法包括:接收數(shù)據(jù)處理單元卡發(fā)送的二進(jìn)制字符串,二進(jìn)制字符串包括n個(gè)二進(jìn)制數(shù),n個(gè)二進(jìn)制數(shù)是基于數(shù)據(jù)處理單元卡包括的n個(gè)部件中每個(gè)部件的健康狀態(tài)生成的,n≥2且為正整數(shù);解析二進(jìn)制字符串,得到n個(gè)二進(jìn)制數(shù);逐個(gè)解析每個(gè)二進(jìn)制數(shù),確定每個(gè)部件的健康狀態(tài),得到數(shù)據(jù)處理單元卡n個(gè)部件對(duì)應(yīng)的n個(gè)健康狀態(tài),每個(gè)二進(jìn)制數(shù)為第一數(shù)值或第二數(shù)值,第一數(shù)值用于指示每個(gè)部件的健康狀態(tài)為健康,第二數(shù)值用于指示每個(gè)部件的健康狀態(tài)為異常。
4、本申請(qǐng)還提供了一種部件的監(jiān)控裝置,應(yīng)用于數(shù)據(jù)處理單元卡,數(shù)據(jù)處理單元卡包括n個(gè)部件,n≥2且為正整數(shù),該部件的監(jiān)控裝置包括:第一收發(fā)模塊,用于獲取n個(gè)部件中每個(gè)部件的健康狀態(tài);第一處理模塊,用于基于每個(gè)部件的健康狀態(tài)生成每個(gè)部件對(duì)應(yīng)的二進(jìn)制數(shù),得到n個(gè)二進(jìn)制數(shù),每個(gè)二進(jìn)制數(shù)為第一數(shù)值或第二數(shù)值,第一數(shù)值用于指示每個(gè)部件的健康狀態(tài)為健康,第二數(shù)值用于指示每個(gè)部件的健康狀態(tài)為異常;第一處理模塊,還用于按照預(yù)設(shè)規(guī)則將n個(gè)二進(jìn)制數(shù)組成一個(gè)二進(jìn)制字符串;第一收發(fā)模塊,還用于當(dāng)接收到主機(jī)側(cè)的基板管理控制器發(fā)送的監(jiān)控請(qǐng)求時(shí),將二進(jìn)制字符串發(fā)送給基板管理控制器。
5、本申請(qǐng)還提供了又一種部件的監(jiān)控裝置,應(yīng)用于主機(jī)側(cè)的基板管理控制器,該部件的監(jiān)控裝置包括:第二收發(fā)模塊,用于接收數(shù)據(jù)處理單元卡發(fā)送的二進(jìn)制字符串,二進(jìn)制字符串包括n個(gè)二進(jìn)制數(shù),n個(gè)二進(jìn)制數(shù)是基于數(shù)據(jù)處理單元卡包括的n個(gè)部件中每個(gè)部件的健康狀態(tài)生成的,n≥2且為正整數(shù)。第二處理模塊,用于解析二進(jìn)制字符串,得到n個(gè)二進(jìn)制數(shù)。第二處理模塊,還用于逐個(gè)解析每個(gè)二進(jìn)制數(shù),確定每個(gè)部件的健康狀態(tài),得到數(shù)據(jù)處理單元卡n個(gè)部件對(duì)應(yīng)的n個(gè)健康狀態(tài),每個(gè)二進(jìn)制數(shù)為第一數(shù)值或第二數(shù)值,第一數(shù)值用于指示每個(gè)部件的健康狀態(tài)為健康,第二數(shù)值用于指示每個(gè)部件的健康狀態(tài)為異常。
6、本申請(qǐng)還提供了一種部件的監(jiān)控系統(tǒng),該部件的監(jiān)控系統(tǒng)包括數(shù)據(jù)處理單元卡和主機(jī)側(cè)的基板管理控制器。
7、其中,數(shù)據(jù)處理單元卡,用于獲取n個(gè)部件中每個(gè)部件的健康狀態(tài);基于每個(gè)部件的健康狀態(tài)生成每個(gè)部件對(duì)應(yīng)的二進(jìn)制數(shù),得到n個(gè)二進(jìn)制數(shù),每個(gè)二進(jìn)制數(shù)為第一數(shù)值或第二數(shù)值,第一數(shù)值用于指示每個(gè)部件的健康狀態(tài)為健康,第二數(shù)值用于指示每個(gè)部件的健康狀態(tài)為異常;按照預(yù)設(shè)規(guī)則將n個(gè)二進(jìn)制數(shù)組成一個(gè)二進(jìn)制字符串;當(dāng)接收到主機(jī)側(cè)的基板管理控制器發(fā)送的監(jiān)控請(qǐng)求時(shí),將二進(jìn)制字符串發(fā)送給基板管理控制器。
8、主機(jī)側(cè)的基板管理控制器,用于接收數(shù)據(jù)處理單元卡發(fā)送的二進(jìn)制字符串,二進(jìn)制字符串包括n個(gè)二進(jìn)制數(shù),n個(gè)二進(jìn)制數(shù)是基于數(shù)據(jù)處理單元卡包括的n個(gè)部件中每個(gè)部件的健康狀態(tài)生成的,n≥2且為正整數(shù);解析二進(jìn)制字符串,得到n個(gè)二進(jìn)制數(shù);逐個(gè)解析每個(gè)二進(jìn)制數(shù),確定每個(gè)部件的健康狀態(tài),得到數(shù)據(jù)處理單元卡n個(gè)部件對(duì)應(yīng)的n個(gè)健康狀態(tài),每個(gè)二進(jìn)制數(shù)為第一數(shù)值或第二數(shù)值,第一數(shù)值用于指示每個(gè)部件的健康狀態(tài)為健康,第二數(shù)值用于指示每個(gè)部件的健康狀態(tài)為異常。
9、本申請(qǐng)還提供了一種電子設(shè)備,包括:存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;處理器,用于執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一種部件的監(jiān)控方法的步驟。
10、本申請(qǐng)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一種部件的監(jiān)控方法的步驟。
11、本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一種部件的監(jiān)控方法的步驟。
12、通過本申請(qǐng),數(shù)據(jù)處理單元卡通過獲取n個(gè)部件中每個(gè)部件的健康狀態(tài);并基于每個(gè)部件的健康狀態(tài)生成n個(gè)二進(jìn)制數(shù),并按照預(yù)設(shè)規(guī)則將n個(gè)二進(jìn)制數(shù)組成一個(gè)二進(jìn)制字符串;當(dāng)接收到主機(jī)側(cè)的基板管理控制器發(fā)送的監(jiān)控請(qǐng)求時(shí),將二進(jìn)制字符串發(fā)送給基板管理控制器。
13、基板管理控制器接收數(shù)據(jù)處理單元卡發(fā)送的二進(jìn)制字符串,并解析二進(jìn)制字符串,得到n個(gè)二進(jìn)制數(shù);逐個(gè)解析每個(gè)二進(jìn)制數(shù),確定每個(gè)部件的所述健康狀態(tài),得到n個(gè)部件對(duì)應(yīng)的n個(gè)健康狀態(tài)。
14、由于bmc只需下發(fā)一個(gè)監(jiān)控請(qǐng)求,即可獲取一個(gè)二進(jìn)制字符串,進(jìn)而解析二進(jìn)制字符串獲取n個(gè)部件的健康狀態(tài),因此,避免bmc頻繁發(fā)送多個(gè)查詢命令,節(jié)省系統(tǒng)資源和網(wǎng)絡(luò)帶寬資源,提升監(jiān)控效率和實(shí)時(shí)性,避免了多種不同查詢命令和流程的使用,降低監(jiān)控復(fù)雜性,及時(shí)發(fā)現(xiàn)健康狀態(tài)異常的部件,實(shí)現(xiàn)了對(duì)故障的快速定位,減少故障響應(yīng)延遲,提升系統(tǒng)的穩(wěn)定性。
1.一種部件的監(jiān)控方法,其特征在于,應(yīng)用于數(shù)據(jù)處理單元卡,所述數(shù)據(jù)處理單元卡包括n個(gè)部件,n≥2且為正整數(shù),所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述二進(jìn)制字符串的長(zhǎng)度為n+1比特位;其中,所述二進(jìn)制字符串中前n個(gè)比特位用于存儲(chǔ)n個(gè)所述二進(jìn)制數(shù);第n+1個(gè)比特位為預(yù)留比特位。
4.一種部件的監(jiān)控方法,其特征在于,應(yīng)用于主機(jī)側(cè)的基板管理控制器,所述方法包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述接收所述數(shù)據(jù)處理單元卡發(fā)送的所述二進(jìn)制字符串之前,所述方法還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述二進(jìn)制字符串的長(zhǎng)度為n+1比特位;所述二進(jìn)制字符串中前n個(gè)比特位用于存儲(chǔ)所述n個(gè)二進(jìn)制數(shù);第n+1個(gè)比特位為預(yù)留比特位;所述方法還包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述n個(gè)二進(jìn)制數(shù)對(duì)應(yīng)n個(gè)比特位標(biāo)識(shí);所述逐個(gè)解析每個(gè)所述二進(jìn)制數(shù),確定每個(gè)所述部件的所述健康狀態(tài),包括:
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述故障信息包括所述目標(biāo)部件的故障等級(jí);所述在所述當(dāng)前性能指標(biāo)值大于預(yù)設(shè)閾值時(shí),根據(jù)所述當(dāng)前性能指標(biāo)值,確定所述目標(biāo)部件的故障信息,包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括:
11.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括:
12.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
13.一種電子設(shè)備,其特征在于,包括:
14.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至12任一項(xiàng)所述部件的監(jiān)控方法的步驟。
15.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至12任一項(xiàng)所述部件的監(jiān)控方法的步驟。