基于标签路径特征的网页正文自适应抽取方法研究

致谢	第7-8页
摘要	第8-9页
ABSTRACT	第9页
第一章绪论	第14-17页
1.1 研究背景、目的及意义	第14-15页
1.2 研究内容	第15-16页
1.2.1 课题来源	第15页
1.2.2 本文研究思路和主要研究内容	第15-16页
1.2.3 内容组织	第16页
1.3 本章小结	第16-17页
第二章网页正文抽取相关研究	第17-24页
2.1 相关工作	第17-22页
2.2 网页正文抽取的难点	第22-23页
2.3 网页正文抽取的评价体系	第23页
2.4 本章小结	第23-24页
第三章基于标签路径特征融合的在线Web新闻内容抽取方法	第24-38页
3.1 概述	第24页
3.2 DOM树与标签路径	第24-25页
3.3 标签路径特征系	第25-28页
3.4 标签路径特征融合	第28-30页
3.4.1 组合特征选择	第28-30页
3.4.2 组合特征融合	第30页
3.5 基于标签路径特征融合的在线Web新闻内容抽取	第30-33页
3.5.1 基于标签路径编辑距离的加权高斯平滑	第30-32页
3.5.2 自适应阈值设置与内容抽取算法	第32-33页
3.6 实验结果与分析	第33-37页
3.6.1 对比算法及实验数据集	第33-34页
3.6.2 实验结果分析	第34-37页
3.7 本章小结	第37-38页
第四章基于长文本标签比的网页正文抽取方法	第38-50页
4.1 概述	第38页
4.2 正文子树	第38-39页
4.3 长文本标签比	第39-44页
4.4 网页正文抽取	第44-45页
4.4.1 长文本阈值设置	第44页
4.4.2 子树聚类与正文抽取	第44-45页
4.5 实验结果与分析	第45-48页
4.5.1 实验数据集	第45-46页
4.5.2 实验结果分析	第46-48页
4.6 本章小结	第48-50页
第五章网页正文抽取算法在Web新闻聚合系统中的应用	第50-54页
5.1 概述	第50页
5.2 面向领域主题的Web新闻动态聚合系统	第50-52页
5.3 网页正文抽取算法在实际应用中的优势和局限性	第52-53页
5.4 本章小结	第53-54页
第六章总结与展望	第54-56页
6.1 研究工作总结	第54-55页
6.2 展望	第55-56页
参考文献	第56-60页
攻读学位期间的学术活动及成果情况	第60-61页