首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向领域的Web信息自动化抽取系统设计与实现

摘要第1-5页
Abstract第5-7页
目录第7-10页
1 绪论第10-17页
   ·研究背景和研究意义第10-11页
   ·信息抽取的历史和现状第11-12页
   ·Web信息抽取技术国内外研究现状第12-15页
   ·论文的工作第15-16页
   ·论文的结构第16-17页
2 相关技术概述第17-25页
   ·基于网页重复模式抽取方法原理第17-18页
   ·基于DOM的Web抽取技术的比较第18-20页
     ·DSE算法第18-19页
     ·RoadRunner算法第19页
     ·MDR算法第19-20页
   ·文本分类的分析与研究第20-24页
     ·文本分类第20页
     ·文本的表示方法第20-21页
     ·特征的选择第21-23页
     ·中文文本分类方法第23-24页
   ·本章小结第24-25页
3 系统设计目标与总体设计第25-29页
   ·系统设计目标第25页
   ·系统总体框架第25-27页
   ·系统功能总体设计第27-28页
   ·本章小结第28-29页
4 网页采集与预处理模块设计第29-40页
   ·网页采集模块的设计第29-32页
     ·爬虫的工作原理第29页
     ·爬虫程序设计第29-30页
     ·相对地址转换第30-31页
     ·使用HttpClient访问网络第31-32页
   ·数据预处理模块的分析与设计第32-37页
     ·网页中的噪音第32-33页
     ·HTML错误检查与修正第33-35页
     ·使用正则式确定网页编码方式第35-37页
   ·中文分词模块设计第37-39页
   ·本章小结第39-40页
5 领域Web数据抽取分析与设计第40-63页
   ·领域网页的特征分析第40-42页
   ·两类网页的抽取算法选择第42-44页
     ·面临的问题第42-43页
     ·抽取算法选择第43页
     ·使用DOM技术处理XML文档第43-44页
   ·列表页数据抽取第44-48页
     ·树的相似度算法第44-46页
     ·使用MDR算法抽取列表页数据第46-48页
   ·噪音特征分析第48-50页
     ·列表页数据区域特征第48-49页
     ·详情页文本特征第49-50页
   ·噪音过滤第50-54页
     ·噪音过滤设计方案第50-51页
     ·文本分类训练模块设计第51-52页
     ·使用kNN分类算法过滤噪音第52-54页
   ·详情页数据抽取第54-58页
     ·DOM树的对齐第55-57页
     ·详情页噪音特征分析与过滤第57-58页
   ·抽取模板生成第58-61页
     ·语义标注第58-61页
     ·基于XPath技术的抽取规则表示第61页
   ·本章小结第61-63页
6 系统的实现与评测第63-73页
   ·系统开发环境第63页
   ·系统架构与关键类实现第63-67页
   ·系统数据库实现第67-69页
   ·用户界面实现第69-71页
   ·系统的性能评测第71-72页
   ·本章小结第72-73页
7 总结与展望第73-75页
参考文献第75-77页
致谢第77-78页
个人简历与研究成果第78页

论文共78页,点击 下载论文
上一篇:图像畸变校正系统及其工程应用
下一篇:三层交换技术研究及在高职校园网建设中的应用