基于DOM的HTML网页正文信息抽取模块的设计与实现

摘要	第1-5页
ABSTRACT	第5-8页
第一章引言	第8-16页
·课题背景	第8-9页
·网页正文抽取技术发展现状	第9-14页
·国外网页正文信息抽取技术发展现状	第9-12页
·国内网页正文信息抽取技术发展现状	第12-13页
·发展趋势及小结	第13-14页
·课题任务	第14页
·课题内容	第14页
·本人承担任务	第14页
·论文结构	第14-16页
第二章主题网络爬虫系统概述及技术分析	第16-27页
·系统的设计目标	第16-17页
·系统的运行环境	第17-20页
·系统的体系结构	第20-25页
·主题网络爬虫的系统组成	第20-22页
·主题确立模块	第22-23页
·抓取模块	第23页
·主题预测模块	第23页
·主题相关度分析模块	第23-24页
·网页分析模块	第24页
·网页正文信息抽取模块	第24-25页
·排序模块	第25页
·系统的关键技术分析	第25-26页
·本章小结	第26-27页
第三章网页正文信息抽取模块的系统分析	第27-39页
·网页正文信息抽取的基本功能需求	第27-28页
·网页正文信息抽取的工作流程和实现思路	第28-30页
·工作流程	第28-29页
·设计思路	第29页
·抽取工具简介	第29-30页
·网页正文信息抽取的功能目标	第30-31页
·解析模块	第30页
·过滤模块	第30页
·分析模块	第30页
·剪枝模块	第30-31页
·转换模块	第31页
·DOM(文档对象模型)介绍	第31-39页
·文档对象模型概述	第31页
·文档对象模型的内部逻辑结构	第31-33页
·文档对象模型的四个基本接口	第33-35页
·如何将HTML文档转换成DOM树	第35页
·DOM文档的遍历	第35-37页
·处理文档对象模型中的文本节点	第37页
·处理DOM文档节点的属性	第37页
·节点的处理	第37-38页
·文档对象的序列化	第38-39页
第四章 HTML网页正文抽取模块的实现	第39-57页
·HTML的解析	第39页
·HTML的过滤	第39-40页
·内容块	第40-41页
·算法综述	第41-48页
·过滤算法	第48页
·正文分析	第48-55页
·HTML网页正文内容的特征	第48-49页
·主题相关度的判定	第49-55页
·剪枝算法	第55页
·算法总结	第55-57页
第五章算法测评及应用	第57-63页
·实验系统的组成	第57页
·实验数据集	第57-58页
·实验测评标准	第58-59页
·实验结果及分析	第59-61页
·网页主题信息抽取的应用领域	第61-63页
第六章结束语	第63-65页
·论文工作总结	第63页
·问题和展望	第63-65页
参考文献	第65-67页
致谢	第67页