首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

Web网页正文抽取方法研究

摘要第1-4页
ABSTRACT第4-7页
第1章 绪论第7-10页
   ·问题的提出及意义第7-8页
   ·研究内容第8-9页
   ·论文结构第9-10页
第2章 相关知识第10-21页
   ·信息抽取第10-12页
     ·数据的组织形式第10页
     ·信息抽取概述第10-11页
     ·Web信息抽取概述第11-12页
   ·HTML第12-16页
     ·HTML的历史第12-13页
     ·HTML基本语法第13-14页
     ·HTML的特点第14-16页
   ·DOM第16-18页
     ·DOM的定义及特点第16-17页
     ·DOM的一些操作第17-18页
   ·网页正文的定义第18-19页
   ·本章小结第19-21页
第3章 研究现状第21-31页
   ·基于统计的方法第21-22页
   ·基于DOM的方法第22-24页
   ·基于网页分块的方法第24-26页
   ·基于标签窗的方法第26-27页
   ·基于模板的方法第27-29页
   ·本章小结第29-31页
第4章 网页正文抽取第31-49页
   ·网页预处理第32-34页
     ·字符编码问题第32页
     ·网页规范化第32-33页
     ·噪音信息过滤第33-34页
   ·DTE算法与模板生成第34-43页
     ·节点类型定义第36页
     ·节点比较算法第36-38页
     ·DOM树匹配算法第38-41页
     ·候选子树中评论信息发现第41-43页
   ·处理节点内容第43-47页
     ·构造正文特征向量 T第43-44页
     ·抽取网页标题第44-46页
     ·内容块中图片、表格等信息的处理第46-47页
   ·使用模板抽取网页正文第47-48页
   ·本章小结第48-49页
第5章 原型系统的实现及实验第49-56页
   ·工作环境第49页
   ·原型系统的设计与实现第49-52页
   ·实验与分析第52-55页
     ·评价标准第52页
     ·实验数据集第52-53页
     ·实验结果及分析第53-55页
   ·本章小结第55-56页
第6章 结论与展望第56-58页
   ·论文总结第56-57页
   ·进一步的工作第57-58页
致谢第58-59页
参考文献第59-63页
攻读学位期间的研究成果第63页

论文共63页,点击 下载论文
上一篇:基于JXTA的P2P网络信息传输系统的研究与实现
下一篇:基于FP-growth关联规则挖掘算法的研究与应用