面向多通道爬虫的Web信息抽取技术研究

摘要	第4-5页
Abstract	第5页
第1章绪论	第9-17页
1.1 课题背景与研究意义	第9-10页
1.2 国内外研究现状	第10-15页
1.2.1 Web内容抽取	第10-13页
1.2.2 Web数据记录抽取	第13-15页
1.3 研究内容与组织结构	第15-17页
第2章基于有效字符的Web内容抽取	第17-40页
2.1 概述	第17-19页
2.2 对?算法及实现	第19-23页
2.2.1 基于?本标签?的内容抽取算法	第19-20页
2.2.2 基于?本密度的内容抽取算法	第20-22页
2.2.3 基于?本标签路径?的内容抽取算法	第22-23页
2.3 基于有效字符的Web内容抽取算法	第23-31页
2.3.1 ?档对象模型（DOM）	第23-25页
2.3.2 有效字符定义与统计?法	第25-27页
2.3.3 核?内容块定位?法	第27-29页
2.3.4 算法实现概述	第29-31页
2.4 新闻和博客的内容抽取实验	第31-39页
2.4.1 内容抽取评价指标	第31-32页
2.4.2 新闻和博客数据集	第32-33页
2.4.3 算法的参数调整	第33页
2.4.4 实验过程与结果	第33-34页
2.4.5 实验结果分析	第34-39页
2.5 本章?结	第39-40页
第3章基于锚节点的论坛帖子抽取	第40-58页
3.1 概述	第40-41页
3.2 对?算法及实现	第41-42页
3.3 基于锚节点的帖?抽取算法	第42-52页
3.3.1 树匹配算法	第42-44页
3.3.2 锚节点定义与统计?法	第44-45页
3.3.3 帖??节点定位?法	第45-47页
3.3.4 候选帖?筛选?法	第47-51页
3.3.5 算法实现概述	第51-52页
3.4 论坛帖?抽取实验	第52-57页
3.4.1 帖?抽取评价指标	第52页
3.4.2 论坛数据集	第52-54页
3.4.3 实验过程和结果分析	第54-57页
3.5 本章?结	第57-58页
第4章 Web新闻采集系统的设计与实现	第58-72页
4.1 概述	第58-59页
4.2 总体设计?案	第59-61页
4.2.1 系统架构	第59-60页
4.2.2 新闻采集流程	第60-61页
4.3 各模块的设计与实现	第61-68页
4.3.1 列表解析模块	第61-63页
4.3.2 信息抽取模块	第63-65页
4.3.3 URL过滤模块	第65-66页
4.3.4 并?调度模块	第66-67页
4.3.5 存储和检索模块	第67-68页
4.4 运?效果评估	第68-71页
4.4.1 测试环境	第68-69页
4.4.2 新闻采集统计	第69页
4.4.3 新闻信息抽取测试	第69-70页
4.4.4 新闻检索测试	第70-71页
4.5 本章?结	第71-72页
结论	第72-73页
参考文献	第73-77页
攻读硕士学位期间发表的论文及其他成果	第77-79页
致谢	第79页