web信息抽取技术研究与应用

摘要	第4-5页
ABSTRACT	第5-6页
第一章绪论	第9-15页
1.1 研究背景与意义	第9-10页
1.2 国内外研究现状	第10-12页
1.2.1 爬虫技术国内外研究现状	第10页
1.2.2 web信息抽取技术国内外研究现状	第10-12页
1.3 论文的主要内容	第12-13页
1.4 论文结构安排	第13-15页
第二章 web信息抽取系统相关技术介绍	第15-20页
2.1 网络爬虫技术	第15-17页
2.1.1 全网爬虫	第15-16页
2.1.2 增量式爬虫	第16-17页
2.2 Web信息抽取技术	第17-19页
2.2.1 基于包装器的web信息抽取系统	第17-18页
2.2.2 基于视觉的网页分块技术	第18-19页
2.2.3 Web信息抽取系统的评价标准	第19页
2.3 本章小结	第19-20页
第三章正则表达式在web信息抽取技术中的应用	第20-35页
3.1 正则表达式应用在信息抽取技术中的可行性分析	第20页
3.2 增量式统一信息抽取系统需求	第20-21页
3.3 增量式统一信息抽取系统架构	第21-23页
3.4 各模块详细设计	第23-27页
3.4.1 模板定制模块详细设计	第23-24页
3.4.2 网页下载模块详细设计	第24-25页
3.4.3 匹配模块详细设计	第25-26页
3.4.4 增量处理模块详细设计	第26-27页
3.5 主程序接口介绍	第27页
3.6 系统流程	第27-30页
3.7 数据存储	第30-31页
3.8 结果展示	第31-34页
3.9 本章小结	第34-35页
第四章图书馆信息采集系统	第35-46页
4.1 需求分析	第35-36页
4.2 系统架构	第36-37页
4.3 采集模块实现	第37-42页
4.3.1 图书馆网站分类	第38-39页
4.3.2 断点续爬机制	第39-40页
4.3.3 采集模块的流程	第40-42页
4.4 采集程序监控模块	第42页
4.5 数据校对模块	第42-43页
4.6 数据存储模块	第43-44页
4.7 结果展示	第44-45页
4.8 本章小结	第45-46页
第五章基于网页视觉分块的BBS评论信息抽取技术研究	第46-60页
5.1 HTML预处理	第46-47页
5.2 网页清洗	第47-48页
5.3 构造带有视觉信息的DOM树	第48-49页
5.4 获取网页正文块	第49-54页
5.4.1 基于视觉信息的网页分块	第50-51页
5.4.2 基于信息论模型的网页分块	第51-54页
5.5 基于树的深度相似度算法提取BBS评论信息	第54-56页
5.5.1 子树最优自由匹配准则	第54-55页
5.5.2 基于深度加权的DOM树相似度度量	第55-56页
5.5.3 评论信息抽取方法	第56页
5.6 实验结果分析	第56-59页
5.7 本章小结	第59-60页
第六章总结与展望	第60-61页
参考文献	第61-63页
致谢	第63-64页
攻读学位期间发表的学术论文目录	第64页