基于单DOM树特征预分类的自适应Web信息抽取方法

摘要	第3-4页
Abstract	第4-5页
第1章绪论	第8-15页
1.1 课题背景及研究意义	第8-10页
1.2 国内外研究现状	第10-13页
1.2.1 国内舆情系统研究现状	第11页
1.2.2 国外舆情系统研究现状	第11-13页
1.3 论文的主要内容和创新点	第13-15页
第2章信息抽取技术与分类算法	第15-28页
2.1 WEB信息抽取技术	第15-18页
2.2 分类算法	第18-27页
2.2.1 分类算法概述	第18-20页
2.2.2 决策树分类算法的工作原理	第20-23页
2.2.3 SVM支持向量机分类算法	第23-27页
2.3 本章小结	第27-28页
第3章基于单DOM树特征预分类信息抽取方法	第28-40页
3.1 HTML文档与DOM树	第29-32页
3.1.1 网页结构树	第29-31页
3.1.2 树路径与树路径相似度	第31-32页
3.2 网页预处理	第32-33页
3.3 基于单DOM树特征预分类	第33-37页
3.3.1 特征提取	第35-37页
3.3.2 SVM分类器	第37页
3.4 同源页面信息抽取	第37-39页
3.5 本章小结	第39-40页
第4章实验测试与结果分析	第40-50页
4.1 实验环境	第40页
4.1.1 测试环境配置	第40页
4.1.2 数据集来源	第40页
4.2 实验步骤	第40-45页
4.2.1 数据集获取	第40-42页
4.2.2 分类器的训练	第42-44页
4.2.3 同源页面信息抽取	第44-45页
4.3 评价指标	第45-46页
4.4 结果分析	第46-49页
4.4.1 单DOM树特征预分类结果与分析	第46-48页
4.4.2 同源页面信息抽取结果与分析	第48-49页
4.5 本章小结	第49-50页
第5章总结与展望	第50-52页
参考文献	第52-54页
致谢	第54-55页
附录1 攻读硕士学位期间参与的项目和发表的论文	第55-56页
附录2 主要英文缩写语对照表	第56页