首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于DOM的HTML网页正文信息抽取模块的设计与实现

摘要第1-5页
ABSTRACT第5-8页
第一章 引言第8-16页
   ·课题背景第8-9页
   ·网页正文抽取技术发展现状第9-14页
     ·国外网页正文信息抽取技术发展现状第9-12页
     ·国内网页正文信息抽取技术发展现状第12-13页
     ·发展趋势及小结第13-14页
   ·课题任务第14页
     ·课题内容第14页
     ·本人承担任务第14页
   ·论文结构第14-16页
第二章 主题网络爬虫系统概述及技术分析第16-27页
   ·系统的设计目标第16-17页
   ·系统的运行环境第17-20页
   ·系统的体系结构第20-25页
     ·主题网络爬虫的系统组成第20-22页
     ·主题确立模块第22-23页
     ·抓取模块第23页
     ·主题预测模块第23页
     ·主题相关度分析模块第23-24页
     ·网页分析模块第24页
     ·网页正文信息抽取模块第24-25页
     ·排序模块第25页
   ·系统的关键技术分析第25-26页
   ·本章小结第26-27页
第三章 网页正文信息抽取模块的系统分析第27-39页
   ·网页正文信息抽取的基本功能需求第27-28页
   ·网页正文信息抽取的工作流程和实现思路第28-30页
     ·工作流程第28-29页
     ·设计思路第29页
     ·抽取工具简介第29-30页
   ·网页正文信息抽取的功能目标第30-31页
     ·解析模块第30页
     ·过滤模块第30页
     ·分析模块第30页
     ·剪枝模块第30-31页
     ·转换模块第31页
   ·DOM(文档对象模型)介绍第31-39页
     ·文档对象模型概述第31页
     ·文档对象模型的内部逻辑结构第31-33页
     ·文档对象模型的四个基本接口第33-35页
     ·如何将HTML文档转换成DOM树第35页
     ·DOM文档的遍历第35-37页
     ·处理文档对象模型中的文本节点第37页
     ·处理DOM文档节点的属性第37页
     ·节点的处理第37-38页
     ·文档对象的序列化第38-39页
第四章 HTML网页正文抽取模块的实现第39-57页
   ·HTML的解析第39页
   ·HTML的过滤第39-40页
   ·内容块第40-41页
   ·算法综述第41-48页
   ·过滤算法第48页
   ·正文分析第48-55页
     ·HTML网页正文内容的特征第48-49页
     ·主题相关度的判定第49-55页
   ·剪枝算法第55页
   ·算法总结第55-57页
第五章 算法测评及应用第57-63页
   ·实验系统的组成第57页
   ·实验数据集第57-58页
   ·实验测评标准第58-59页
   ·实验结果及分析第59-61页
   ·网页主题信息抽取的应用领域第61-63页
第六章 结束语第63-65页
   ·论文工作总结第63页
   ·问题和展望第63-65页
参考文献第65-67页
致谢第67页

论文共67页,点击 下载论文
上一篇:基于分级保护的Web电子邮件系统设计与实现
下一篇:基于**公司产品的同步以太网模块设计