面向领域的Web信息自动化抽取系统设计与实现

摘要	第1-5页
Abstract	第5-7页
目录	第7-10页
1 绪论	第10-17页
·研究背景和研究意义	第10-11页
·信息抽取的历史和现状	第11-12页
·Web信息抽取技术国内外研究现状	第12-15页
·论文的工作	第15-16页
·论文的结构	第16-17页
2 相关技术概述	第17-25页
·基于网页重复模式抽取方法原理	第17-18页
·基于DOM的Web抽取技术的比较	第18-20页
·DSE算法	第18-19页
·RoadRunner算法	第19页
·MDR算法	第19-20页
·文本分类的分析与研究	第20-24页
·文本分类	第20页
·文本的表示方法	第20-21页
·特征的选择	第21-23页
·中文文本分类方法	第23-24页
·本章小结	第24-25页
3 系统设计目标与总体设计	第25-29页
·系统设计目标	第25页
·系统总体框架	第25-27页
·系统功能总体设计	第27-28页
·本章小结	第28-29页
4 网页采集与预处理模块设计	第29-40页
·网页采集模块的设计	第29-32页
·爬虫的工作原理	第29页
·爬虫程序设计	第29-30页
·相对地址转换	第30-31页
·使用HttpClient访问网络	第31-32页
·数据预处理模块的分析与设计	第32-37页
·网页中的噪音	第32-33页
·HTML错误检查与修正	第33-35页
·使用正则式确定网页编码方式	第35-37页
·中文分词模块设计	第37-39页
·本章小结	第39-40页
5 领域Web数据抽取分析与设计	第40-63页
·领域网页的特征分析	第40-42页
·两类网页的抽取算法选择	第42-44页
·面临的问题	第42-43页
·抽取算法选择	第43页
·使用DOM技术处理XML文档	第43-44页
·列表页数据抽取	第44-48页
·树的相似度算法	第44-46页
·使用MDR算法抽取列表页数据	第46-48页
·噪音特征分析	第48-50页
·列表页数据区域特征	第48-49页
·详情页文本特征	第49-50页
·噪音过滤	第50-54页
·噪音过滤设计方案	第50-51页
·文本分类训练模块设计	第51-52页
·使用kNN分类算法过滤噪音	第52-54页
·详情页数据抽取	第54-58页
·DOM树的对齐	第55-57页
·详情页噪音特征分析与过滤	第57-58页
·抽取模板生成	第58-61页
·语义标注	第58-61页
·基于XPath技术的抽取规则表示	第61页
·本章小结	第61-63页
6 系统的实现与评测	第63-73页
·系统开发环境	第63页
·系统架构与关键类实现	第63-67页
·系统数据库实现	第67-69页
·用户界面实现	第69-71页
·系统的性能评测	第71-72页
·本章小结	第72-73页
7 总结与展望	第73-75页
参考文献	第75-77页
致谢	第77-78页
个人简历与研究成果	第78页