基于多模態(tài)特征融合的場景文本識別

打印
收藏

收藏成功

微博 QQ空間微信

打開文本圖片集

摘要：為了解決自然場景文本圖像因為遮擋、扭曲等原因難以識別的問題，提出基于多模態(tài)特征融合的場景文本識別網(wǎng)絡(luò)（multimodal scene text recognition，MMSTR）。首先，MMSTR使用共享權(quán)重內(nèi)部自回歸的排列語言模型實現(xiàn)多種解碼策略；其次，MMSTR在圖像編碼階段提出殘差注意力編碼器（residual attention encoder，REA-encoder）提高了對淺層特征捕獲能力，使得淺層特征能夠傳到更深的網(wǎng)絡(luò)層，有效緩解了vision Transformer提取圖像淺層特征不充分引起的特征坍塌問題；最后，針對解碼過程中存在語義特征與視覺特征融合不充分的問題，MMSTR構(gòu)建了決策融合模塊（decision fusion module，DFM），利用級聯(lián)多頭注意力機制提高語義與視覺的融合程度。（剩余18683字）

試讀結(jié)束

購買全文6.00元

計算機應(yīng)用研究

2025年04期

￥12.00/本

特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于多模態(tài)特征融合的場景文本識別