Web正文信息抽取与面向层次结构的分类技术研究

摘要	第1-6页
Abstract	第6-10页
第一章绪论	第10-16页
·研究背景及意义	第10-11页
·国内外研究现状	第11-13页
·Web 信息抽取技术研究现状	第11-12页
·网页自动分类技术研究现状	第12-13页
·本文的研究内容	第13-14页
·论文的组织结构	第14-16页
第二章相关理论和关键技术	第16-23页
·信息抽取	第16页
·文本分类	第16-18页
·文本预处理技术	第18-19页
·中文分词技术	第18页
·停用词处理	第18-19页
·特征选择	第19页
·文本分类常用方法	第19-21页
·知网	第21-22页
·知网的结构	第21页
·知网的概念	第21-22页
·本章小结	第22-23页
第三章基于DOM 树和部分超链接过滤的正文信息抽取	第23-41页
·网页正文信息与网页结构	第23页
·网页正文信息抽取方法	第23-29页
·基于启发性规则的抽取方法	第24-28页
·基于网页模板的方法	第28-29页
·基于网页DOM 树和部分超链接过滤的正文信息抽取算法	第29-37页
·网页规范化	第29-30页
·去噪过滤	第30-34页
·正文信息抽取	第34-37页
·实验及分析	第37-40页
·实验评测指标结果	第37-38页
·实验结果分析	第38-40页
·本章小结	第40-41页
第四章基于站点层次结构的网页分类技术	第41-46页
·虚拟站点层次关系树的构建	第41-42页
·站点层次结构抽取算法	第42-43页
·网页分类的实现	第43-45页
·本章小结	第45-46页
第五章基于标题的网页分类研究	第46-64页
·标题预处理	第46-48页
·网页标题	第46-47页
·领域知识库	第47-48页
·特征选择研究	第48-55页
·特征选择方法	第48-51页
·归一化词频密度	第51-52页
·类内覆盖度	第52页
·改进的X~2 特征选择算法	第52-54页
·常规领域知识导入	第54-55页
·词语相似度	第55-58页
·词语相似度计算方法	第55-56页
·基于《知网》的语义相似度计算	第56页
·网页自动分类流程	第56-58页
·实验及分析	第58-63页
·性能评价方法	第58-59页
·实验数据	第59-60页
·实验结果及分析	第60-63页
·本章小结	第63-64页
第六章系统实现	第64-75页
·系统设计思想	第64-65页
·系统总体框架和模块设计	第65-74页
·网页正文信息抽取模块	第66-69页
·基于站点层次结构的网页分类模块	第69-71页
·基于标题的网页分类模块	第71-73页
·缓存管理模块	第73-74页
·本章小结	第74-75页
结论	第75-77页
参考文献	第77-81页
攻读硕士学位期间取得的研究成果	第81-82页
致谢	第82-83页
答辩委员会对论文的评定意见	第83页