基于标点符号统计特征的中文类型网页正文抽取

摘要	第1-5页
Abstract	第5-8页
第1章绪论	第8-12页
·信息抽取的研究背景及研究意义	第8-10页
·本文的主要研究内容以及组织结构	第10-12页
·本文的主要研究内容	第10页
·论文的组织结构	第10-12页
第2章网页正文内容抽取的相关知识	第12-26页
·信息检索与信息抽取	第12-16页
·信息检索	第12-13页
·信息抽取	第13-15页
·信息检索与信息抽取的区别	第15-16页
·编写 web 文档的语言	第16-22页
·HTML	第16-19页
·XML	第19-21页
·XTHML	第21-22页
·DOM	第22-23页
·XPath	第23-25页
·本章小结	第25-26页
第3章网页正文内容抽取方法	第26-33页
·web 文档的信息抽取方法	第26-29页
·网页正文内容抽取方法的分类	第29-32页
·基于 DOM 的方法	第29-30页
·基于模板的方法	第30页
·基于网页分块的方法	第30页
·基于统计的方法	第30-31页
·基于 Tag Window 的方法	第31-32页
·web 文档正文抽取的难点	第32页
·本章小结	第32-33页
第4章基于统计特征的网页正文抽取	第33-50页
·网页正文的定义	第33-35页
·标点符号在中文网页中的分布规律	第35-38页
·web 文档的预处理	第38-43页
·web 文档的采集	第38页
·字符编码问题	第38-40页
·web 网页的规范化处理	第40-43页
·噪音节点的过滤	第43页
·构造叶子节点的正文特征向量	第43-44页
·网页正文抽取算法	第44-49页
·网页正文抽取算法流程	第44-45页
·样本节点的选择算法	第45-46页
·节点的聚类算法	第46-48页
·网页正文信息抽取	第48-49页
·网页正文信息抽取系统的设计	第49页
·本章小结	第49-50页
第5章网页正文信息抽取系统的实现及实验	第50-56页
·工作环境	第50页
·正文信息抽取系统的实现	第50-53页
·实验与分析	第53-55页
·评价标准	第53页
·实验数据	第53页
·实验结果以及分析	第53-55页
·本章小结	第55-56页
第6章总结及展望	第56-58页
·总结	第56-57页
·展望	第57-58页
参考文献	第58-61页
致谢	第61-62页
附录A（攻读硕士学位期间发表的论文）	第62页