结合块密度和标签路径特征的网页正文抽取方法研究

致谢	第7-8页
摘要	第8-9页
abstract	第9页
第一章绪论	第14-18页
1.1 研究背景	第14-15页
1.2 研究内容	第15-17页
1.2.1 课题来源	第15页
1.2.2 本文研究思路和主要研究内容	第15-16页
1.2.3 内容组织结构	第16-17页
1.3 本章小结	第17-18页
第二章网页正文抽取相关研究	第18-28页
2.1 相关研究工作概述	第18-25页
2.1.1 国内外研究现状	第18-22页
2.1.2 基于标签特征的网页正文抽取	第22-24页
2.1.3 基于文本密度特征的网页正文抽取	第24-25页
2.2 网页正文抽取评价指标	第25-26页
2.2.1 实验数据预处理	第25-26页
2.2.2 评价指标	第26页
2.3 当前网页正文抽取面临的挑战	第26-27页
2.4 本章小结	第27-28页
第三章基于文本块密度的Web新闻内容抽取方法	第28-40页
3.1 概述	第28页
3.2 DOM树	第28-30页
3.3 文本块密度特征	第30-35页
3.3.1 文本块密度特征	第30-33页
3.3.2 扩展文本块密度特征	第33-35页
3.4 基于文本块密度的Web新闻内容抽取方法	第35页
3.5 实验结果与分析	第35-39页
3.5.1 实验数据集及相关对比算法	第35-36页
3.5.2 实验结果分析	第36-39页
3.6 本章小结	第39-40页
第四章基于文本块密度和标签路径覆盖率的网页正文抽取方法	第40-50页
4.1 概述	第40页
4.2 标签路径和标签路径覆盖率	第40-43页
4.2.1 标签路径	第40-42页
4.2.2 标签路径覆盖率	第42-43页
4.3 文本块密度和标签路径覆盖率特征融合	第43-44页
4.4 基于文本块密度和标签路径覆盖率的网页正文抽取方法	第44-46页
4.4.1 抽取阈值设置	第44-46页
4.4.2 抽取算法	第46页
4.5 实验结果	第46-49页
4.5.1 实验数据集及相关对比算法	第46-47页
4.5.2 实验结果分析	第47-49页
4.6 本章小结	第49-50页
第五章基于文本块密度和标签路径覆盖率的Web新闻内容抽取原型系统	第50-55页
5.1 概述	第50页
5.2 系统模型	第50-51页
5.3 系统界面	第51-53页
5.4 网页正文抽取算法在实际应用中的优势和不足	第53-54页
5.5 本章小结	第54-55页
第六章总结与展望	第55-57页
6.1 本文总结	第55-56页
6.2 展望	第56-57页
参考文献	第57-61页
攻读硕士学位期间的学术活动及成果情况	第61-63页