Web网页正文抽取方法研究

摘要	第1-4页
ABSTRACT	第4-7页
第1章绪论	第7-10页
·问题的提出及意义	第7-8页
·研究内容	第8-9页
·论文结构	第9-10页
第2章相关知识	第10-21页
·信息抽取	第10-12页
·数据的组织形式	第10页
·信息抽取概述	第10-11页
·Web信息抽取概述	第11-12页
·HTML	第12-16页
·HTML的历史	第12-13页
·HTML基本语法	第13-14页
·HTML的特点	第14-16页
·DOM	第16-18页
·DOM的定义及特点	第16-17页
·DOM的一些操作	第17-18页
·网页正文的定义	第18-19页
·本章小结	第19-21页
第3章研究现状	第21-31页
·基于统计的方法	第21-22页
·基于DOM的方法	第22-24页
·基于网页分块的方法	第24-26页
·基于标签窗的方法	第26-27页
·基于模板的方法	第27-29页
·本章小结	第29-31页
第4章网页正文抽取	第31-49页
·网页预处理	第32-34页
·字符编码问题	第32页
·网页规范化	第32-33页
·噪音信息过滤	第33-34页
·DTE算法与模板生成	第34-43页
·节点类型定义	第36页
·节点比较算法	第36-38页
·DOM树匹配算法	第38-41页
·候选子树中评论信息发现	第41-43页
·处理节点内容	第43-47页
·构造正文特征向量 T	第43-44页
·抽取网页标题	第44-46页
·内容块中图片、表格等信息的处理	第46-47页
·使用模板抽取网页正文	第47-48页
·本章小结	第48-49页
第5章原型系统的实现及实验	第49-56页
·工作环境	第49页
·原型系统的设计与实现	第49-52页
·实验与分析	第52-55页
·评价标准	第52页
·实验数据集	第52-53页
·实验结果及分析	第53-55页
·本章小结	第55-56页
第6章结论与展望	第56-58页
·论文总结	第56-57页
·进一步的工作	第57-58页
致谢	第58-59页
参考文献	第59-63页
攻读学位期间的研究成果	第63页