自适应Web数据抽取技术研究

摘要	第4-5页
ABSTRACT	第5-6页
第1章绪论	第11-18页
1.1 研究背景和研究意义	第11-13页
1.1.1 研究背景	第11-12页
1.1.2 研究意义	第12-13页
1.2 研究现状	第13-15页
1.2.1 国外研究现状	第13-14页
1.2.2 国内研究现状	第14-15页
1.3 研究问题和研究内容	第15-16页
1.3.1 研究问题	第15页
1.3.2 研究内容	第15-16页
1.4 本文组织结构	第16-18页
第2章相关工作	第18-31页
2.1 Web数据抽取概念及流程	第18-19页
2.2 DOM树	第19-20页
2.3 XPath	第20-22页
2.4 数据抽取算法分类	第22-26页
2.4.1 基于自然语言处理方式的数据抽取技术	第22页
2.4.2 基于页面DOM结构的数据抽取技术	第22-23页
2.4.3 基于本体方式的数据抽取技术	第23-24页
2.4.4 基于页面视觉特征的数据抽取技术	第24-25页
2.4.5 基于统计理论的数据抽取技术	第25-26页
2.5 VIPS算法	第26-30页
2.6 本章小结	第30-31页
第3章基于视觉的网页正文抽取方法	第31-47页
3.1 正文抽取方法基本思想	第31-33页
3.2 视觉块分割	第33-36页
3.3 正文块判断规则	第36-42页
3.3.1 基于位置的正文块判断规则	第36-39页
3.3.2 基于文本链接比的正文块判断规则	第39-41页
3.3.3 基于页面图片的正文块判断规则	第41-42页
3.3.4 正文块抽取评价函数	第42页
3.4 正文信息提取	第42-43页
3.5 网页正文抽取算法	第43-46页
3.6 本章小结	第46-47页
第4章自适应Web页面数据抽取方法	第47-62页
4.1 基本思想	第47-49页
4.2 URL相似度	第49-52页
4.3 目标数据搜索策略	第52-54页
4.4 目标数据搜索规则	第54-58页
4.4.1 基于关键字的目标数据搜索规则	第54-55页
4.4.2 基于HTML标签的目标数据搜索规则	第55-56页
4.4.3 基于上下文的目标数据搜索规则	第56-57页
4.4.4 基于字体的目标数据搜索规则	第57页
4.4.5 目标数据搜索评价函数	第57-58页
4.5 页面数据抽取算法	第58-61页
4.6 本章小结	第61-62页
第5章实验结果与分析	第62-69页
5.1 实验环境与数据集	第62-63页
5.1.1 实验环境	第62页
5.1.2 实验数据集	第62-63页
5.2 实验评价标准	第63-64页
5.3 实验结果与分析	第64-68页
5.3.1 基于视觉的网页正文抽取方法实验结果与分析	第64-66页
5.3.2 自适应Web页面数据抽取方法实验结果与分析	第66-68页
5.4 本章小结	第68-69页
第6章总结与展望	第69-71页
6.1 总结	第69-70页
6.2 展望	第70-71页
致谢	第71-72页
参考文献	第72-75页
攻读学位期间发表的学术论文及参加科研情况	第75页