基于多模態(tài)大語言模型的變電站復(fù)雜場景異常檢測研究

打開文本圖片集
摘要:為了提升變電站復(fù)雜場景的圖像理解和異常檢測結(jié)果的準確性,本文提出了基于多模態(tài)大語言模型的變電站復(fù)雜場景理解與異常檢測方法。該方法的輸入包含變電站圖像和提示文本2種模態(tài)的信息,首先,分別使用視覺模型和文本模型提取變電站圖像特征和提示文本的特征;然后,將圖像特征和文本特征進行融合,并將融合后的特征作為大語言模型的輸入;最后,對大語言模型生成的結(jié)果進行后處理,進而得到場景理解結(jié)果和異常檢測結(jié)果。(剩余6826字)