特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于多模態(tài)特征融合的場景文本識別

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘 要:為了解決自然場景文本圖像因為遮擋、扭曲等原因難以識別的問題,提出基于多模態(tài)特征融合的場景文本識別網(wǎng)絡(luò)(multimodal scene text recognition,MMSTR)。首先,MMSTR使用共享權(quán)重內(nèi)部自回歸的排列語言模型實現(xiàn)多種解碼策略;其次,MMSTR在圖像編碼階段提出殘差注意力編碼器(residual attention encoder,REA-encoder)提高了對淺層特征捕獲能力,使得淺層特征能夠傳到更深的網(wǎng)絡(luò)層,有效緩解了vision Transformer提取圖像淺層特征不充分引起的特征坍塌問題;最后,針對解碼過程中存在語義特征與視覺特征融合不充分的問題,MMSTR構(gòu)建了決策融合模塊(decision fusion module,DFM),利用級聯(lián)多頭注意力機制提高語義與視覺的融合程度。(剩余18683字)

試讀結(jié)束

目錄
monitor