多維度交叉注意力融合的視聽(tīng)分割網(wǎng)絡(luò)
doi:10.19734/j.issn.1001-3695.2024.08.0369
Audio-visual segmentation network with multi-dimensional cross-attention fusion
LiFanfan,Zhang Yuanyuan,Zhang Yonglong,Zhu Junwu? (School of Information Engineering,Yangzhou University,Yangzhou Jiangsu 2251Oo,China)
Abstract:Audio-visual segmentation (AVS)aimsto locateandaccuratelysegmentthesoundingobjects inimagesbasedon both visualandauditoryinformation.Whilemostexistingresearch focusesprimarilyonexploring methods foraudio-visualinformationfusio,thereisinsuicientin-depthexplorationoffine-grinedaudio-visualanalysis,particularlyinaligingcontinuousaudiofeatures withspatialpixel-level information.Therefore,thispaperproposedanaudio-visualsegmentationatention fusion(AVSAF)method basedoncontrastive learning.Firstly,themethodusedmulti-ead crossattentionmechanismand memorytokentoconstructaaudio-visualtokenfusionmodule toreducethelossofmulti-modalinformation.Secondlyitintro ducedcontrastivelearning tominimizethediscrepancybetweenaudioandvisualfeatures,enhancing theiralignment.Aduallayerdecoderwasthenemployedtoaccuratelypredictandsegment thetarget’sposition.Finalyitcarredoutalargeumber of experiments on the S4 and MS3 sub-datasets of the AVSBenge-Object dataset.The J -valueisincreasedby3.O4and4.71 percentage pointsrespectively,and the F valueis increased by 2.4 and3.5percentage points respectively,which fully proves the effectiveness of the proposed method in audio-visual segmentation tasks.
Key words:audio-visual segmentation;multi-modal;contrastive learning;attention mechanism
0引言
人類(lèi)的感知是多維的,包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、味覺(jué)和嗅覺(jué)。(剩余13740字)
-
-
- 計(jì)算機(jī)應(yīng)用研究
- 2025年06期
- 聯(lián)邦學(xué)習(xí)中隱私保護(hù)聚合機(jī)制綜述...
- 基于區(qū)塊鏈的車(chē)聯(lián)網(wǎng)數(shù)據(jù)共享綜述...
- 基于改進(jìn)型多模態(tài)信息融合深度強(qiáng)...
- 基于生成對(duì)抗網(wǎng)絡(luò)與漸進(jìn)式融合的...
- 基于特性分流的多模態(tài)對(duì)話情緒感...
- 面向視覺(jué)-語(yǔ)言模型的遞進(jìn)互提示...
- 多維度交叉注意力融合的視聽(tīng)分割...
- 基于多模態(tài)表征學(xué)習(xí)的自動(dòng)音頻字...
- 基于改進(jìn)行為克隆算法的機(jī)器人運(yùn)...
- 基于混合深度強(qiáng)化學(xué)習(xí)的云制造云...
- 考慮故障因素的多機(jī)器人動(dòng)態(tài)任務(wù)...
- 基于物理信息強(qiáng)化學(xué)習(xí)的無(wú)人駕駛...
- 基于改進(jìn)多目標(biāo)鯨魚(yú)優(yōu)化算法的云...
- 基于ABSA與動(dòng)態(tài)少樣本提示的...
- 改進(jìn)自適應(yīng)大鄰域搜索算法及其在...
- 基于信息素矩陣優(yōu)化蟻群算法求解...
- 融合局部-全局歷史模式與歷史知...
- 一種面向情緒壓力分布外檢測(cè)的多...
- 基于句子轉(zhuǎn)換和雙注意力機(jī)制的歸...
- 基于多層特征融合與增強(qiáng)的對(duì)比圖...
- 使用NGN算法改進(jìn)不平衡數(shù)值數(shù)...
- 一種基于終端策略的近似漣漪擴(kuò)散...
- 融合混合提示與位置感知的突發(fā)事...
- 面向說(shuō)話人日志的多原型驅(qū)動(dòng)圖神...
- 鄰域變異的黑猩猩多峰優(yōu)化算法...
- 基于增強(qiáng)型差分進(jìn)化算法求解廣義...
- 面向可重構(gòu)陣列的CNN多維融合...
- 一種用于機(jī)器聲音異常檢測(cè)的AR...
- 基于數(shù)據(jù)驅(qū)動(dòng)的WSN故障檢測(cè)框...
- 一種面向軟件眾包的眾包工人選擇...
- 邊緣計(jì)算中動(dòng)態(tài)服務(wù)器部署與任務(wù)...
- 基于自適應(yīng)差分進(jìn)化算法的時(shí)間敏...
- 基于LCVAE-CNN的多任務(wù)...
- 基于多擾動(dòng)策略的中文對(duì)抗樣本生...
- 基于用戶(hù)選擇的魯棒與隱私保護(hù)聯(lián)...
- 云醫(yī)療環(huán)境下策略可更新的多權(quán)威...
- SP-CPGCN:用于塵肺病分...
- 基于多級(jí)多特征混合模型的白血病...
- 結(jié)合多尺度特征與局部采樣描述的...
- 迭代偽點(diǎn)云生成的3D目標(biāo)檢測(cè)...
- 分層蒸餾解耦網(wǎng)絡(luò)的低分辨率人臉...
- 基于運(yùn)動(dòng)分割的動(dòng)態(tài)SLAM聯(lián)合...
- 基于預(yù)測(cè)劃分卷積神經(jīng)網(wǎng)絡(luò)的全景...