首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

Web记录自动抽取与去重方法的研究与实现

摘要第1-4页
Abstract第4-7页
第一章 绪论第7-11页
   ·研究背景及研究意义第7-8页
   ·本文主要工作和创新点第8-9页
   ·论文章节安排第9-11页
第二章 Web 记录自动抽取方法研究第11-23页
   ·信息抽取方法的研究现状第11-13页
   ·常见信息抽取系统第13-19页
     ·人工构建信息抽取系统第14-15页
     ·有监督信息抽取系统第15-16页
     ·半监督信息抽取系统第16-17页
     ·无监督信息抽取系统第17-19页
   ·Webhavest 工具第19-21页
   ·本章小结第21-23页
第三章 数据去重方法研究第23-29页
   ·数据去重问题研究现状第23-24页
   ·常见的字符串距离度量第24-26页
     ·基于字符的距离度量方法第24-25页
     ·基于单词的距离度量方法第25-26页
     ·混合距离度量方法第26页
   ·基于距离度量的中文数据去重方法第26-28页
   ·本章小结第28-29页
第四章 Web 记录抽取与去重的自动集成方法研究第29-45页
   ·数据源和属性处理方法第29-35页
     ·数据来源第29-32页
     ·不同属性的处理方法第32-34页
     ·相关实体类第34-35页
   ·自动化方法总览第35-36页
   ·基于搜索引擎过滤的自动化方法第36-40页
     ·方法的设计与实现第36-39页
     ·实现中的问题与解决第39-40页
   ·基于语义分词标注的自动化方法第40-44页
     ·条件随机场第40-42页
     ·方法的设计与实现第42-43页
     ·实现中的问题第43-44页
   ·本章小结第44-45页
第五章 实验结果与分析第45-57页
   ·自动 Web 记录抽取方法实验与分析第45-53页
     ·任务难度比较第45-47页
     ·所用技术比较第47-48页
     ·自动化程度比较第48-50页
     ·信息抓取测试第50-53页
   ·数据去重方法实验与分析第53-55页
     ·实验数据及实验环境第53-54页
     ·实验结果及分析第54-55页
   ·集成自动化方法实验与分析第55-56页
     ·实验平台及数据集第55页
     ·实验结果及分析第55-56页
   ·本章小结第56-57页
第六章 结束语第57-59页
   ·总结第57-58页
   ·展望第58-59页
致谢第59-61页
参考文献第61-65页
作者在读期间研究成果第65-67页
附录 A第67-70页

论文共70页,点击 下载论文
上一篇:面向服务的系统可视化开发系统的研究与实现
下一篇:网上论坛系统设计与实现