特黄三级爱爱视频|国产1区2区强奸|舌L子伦熟妇aV|日韩美腿激情一区|6月丁香综合久久|一级毛片免费试看|在线黄色电影免费|国产主播自拍一区|99精品热爱视频|亚洲黄色先锋一区

基于K-means的大數(shù)據(jù)相似重復(fù)記錄檢測

  • 打印
  • 收藏
收藏成功


打開文本圖片集

摘  要:目前大型企業(yè)存儲了大量的數(shù)據(jù),但是數(shù)據(jù)質(zhì)量令人擔(dān)憂,集中表現(xiàn)在相似重復(fù)冗余的數(shù)據(jù)特別多,以及多個數(shù)據(jù)源的合并加重數(shù)據(jù)的冗余。大數(shù)據(jù)相似記錄檢測環(huán)節(jié)是數(shù)據(jù)清洗研究的重要方向。針對大數(shù)據(jù)中存在的相似重復(fù)數(shù)據(jù)的檢測問題,文章提出了一種基于k-means分組聚類的檢測算法,實驗分析表明,該方法在確保精度不變的情況下提高了檢測效率。(剩余5588字)

目錄
monitor