基于语义的多层Web文本分类技术研究

摘要	第3-5页
Abstract	第5-6页
第一章绪论	第13-21页
1.1 课题背景与意义	第13-14页
1.2 国内外研究现状	第14-19页
1.2.1 Web文本信息抽取与分类研究现状	第14-17页
1.2.2 存在的问题	第17页
1.2.3 本文的主要研究内容	第17-19页
1.3 本文的工作与安排	第19-21页
第二章相关技术基础	第21-33页
2.1 Web文本信息抽取及预处理技术	第21-27页
2.2 文本表示	第27-28页
2.3 多层文本分类技术	第28-31页
2.4 本章小结	第31-33页
第三章基于DOM树的Web文本信息层次化抽取算法	第33-43页
3.1 引言	第33页
3.2 基于超链接和DOM树的Web标题抽取	第33-38页
3.2.1 目录型网页标题抽取	第34-36页
3.2.2 主题型网页标题抽取	第36-38页
3.3 基于DOM树的Web正文内容抽取	第38-40页
3.4 实验结果与分析	第40-42页
3.5 本章小结	第42-43页
第四章基于语义的多层次Web文本分类	第43-56页
4.1 知识库的构建	第43-46页
4.1.1 多层次分类知识库的构建	第43-45页
4.1.2 领域知识库的构建	第45-46页
4.2 基于知网的语义相似度计算	第46-49页
4.2.1 词语语义相似度计算	第47-48页
4.2.2 文本语义相似度计算	第48-49页
4.3 自底向上逐层训练	第49-50页
4.4 自顶向下多层次文本分类算法	第50-53页
4.4.1 基于标题规则的文本分类算法	第51页
4.4.2 基于语义的文本相似度分类算法	第51-53页
4.5 实验结果与分析	第53-55页
4.6 本章小结	第55-56页
第五章总结与展望	第56-58页
5.1 论文总结	第56页
5.2 工作展望	第56-58页
参考文献	第58-62页
致谢	第62-63页
攻读硕士学位期间发表的学术论文	第63-64页
攻读硕士学位期间参加的科研项目	第64页