首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

林业WEB黄页信息整合中数据去重关键技术研究

摘要第1-5页
ABSTRACT第5-7页
目录第7-9页
1 绪论第9-15页
   ·研究背景和意义第9-10页
   ·研究现状第10-12页
     ·国外研究现状第10-11页
     ·国内研究现状第11-12页
   ·研究内容与技术路线第12-13页
   ·论文组织结构第13-15页
2 数据去重的相关技术第15-26页
   ·相似重复记录概念第15-16页
   ·字段匹配算法第16-21页
     ·基本的字段匹配算法第17页
     ·递归的字段匹配算法第17页
     ·基于编辑距离的字段匹配算法第17-19页
     ·Cosine相似度函数算法第19页
     ·Smith-Waterman距离算法第19页
     ·算法比较第19-21页
   ·相似重复记录的检测第21-24页
     ·近邻排序算法第21-22页
     ·多趟近邻排序算法第22页
     ·优先队列算法第22-23页
     ·算法比较第23-24页
   ·衡量算法效率的度量标准第24页
   ·冲突处理第24-25页
   ·本章小结第25-26页
3 逐级聚类的数据去重算法第26-41页
   ·WEB信息特点第26-27页
   ·数据预处理第27-30页
     ·异常记录修改第27-29页
     ·属性选择与权值分配第29页
     ·中文分词第29-30页
   ·关键属性分割第30-31页
   ·Canopy聚类第31-34页
     ·倒排检索第32页
     ·Canopy聚类第32-34页
   ·精确聚类第34-35页
   ·基于动态权重的模糊实体匹配策略第35-39页
     ·基于编辑距离的记录相似度计算第35-36页
     ·模糊实体名称匹配第36-38页
     ·动态权重第38-39页
   ·算法复杂度分析第39页
   ·本章小结第39-41页
4 数据去重模块设计及实现第41-50页
   ·模块框架结构第41-44页
     ·数据预处理子模块第41-43页
     ·关键属性分割子模块第43页
     ·Canopy聚类子模块第43页
     ·精确聚类子模块第43-44页
   ·数据库设计第44-46页
   ·实验数据分析第46页
   ·实验结果第46-50页
     ·阀值选择第46-48页
     ·准确率和召回率对比第48页
     ·运行时间对比第48-50页
5 总结与展望第50-52页
   ·总结第50页
   ·展望第50-52页
参考文献第52-55页
个人简介第55-56页
导师简介第56-57页
获得成果目录第57-58页
致谢第58页

论文共58页,点击 下载论文
上一篇:无线传感网层次型路由协议的研究与评价
下一篇:基于组合特征的中文新闻网页关键词提取研究