基于领域的主题信息采集技术研究

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-21页
·课题的研究背景和意义	第11-12页
·信息采集概述	第12-15页
·信息采集的基本原理	第12-13页
·信息采集的结构	第13-15页
·信息采集的发展现状	第15-17页
·信息采集的分类	第15-17页
·面向主题的信息采集的发展	第17页
·信息采集面临的主要问题和解决策略	第17-19页
·本文的主要工作	第19页
·论文组织结构	第19-21页
第2章相关理论与技术	第21-29页
·中文分词	第21-22页
·本体与本体描述语言	第22-27页
·本体描述语言	第22-24页
·本体构建规则	第24页
·本体构建工具	第24-25页
·本体解析	第25-27页
·BERKELEY DB实现链接存储技术	第27-28页
·本章小结	第28-29页
第3章基于领域本体的主题信息抽取	第29-41页
·网页的预处理	第29-31页
·建立DOM树	第29-30页
·网页标题的提取	第30页
·网页正文内容的提取	第30-31页
·本体构建	第31-33页
·本体解析	第33-35页
·基于Jena的本体解析	第33-35页
·主题描述	第35-38页
·主题描述方法	第36-37页
·基于本体的主题领域描述方法	第37-38页
·基于知网的语义分析技术	第38-40页
·知网简介	第38页
·知网对词语的描述	第38-39页
·义原相似度计算	第39-40页
·词语相似度的计算	第40页
·本章小结	第40-41页
第4章页面与主题领域相关性判断算法	第41-56页
·基于本体的领域知识集的构建	第41-45页
·构建本体概念树	第41-42页
·获得本体中的概念和权值	第42-43页
·语义消歧	第43-45页
·生成领域义原集	第45页
·链接与主题相似度计算	第45-50页
·页面问链接分析	第46页
·PageRank算法	第46-47页
·PageRank算法的不足和改进	第47-48页
·链接信息的分析	第48-49页
·链接与主题相似度计算	第49-50页
·网页与主题相似度计算	第50-56页
·空间向量模型	第50-52页
·基于Web页面分析的文本空间向量	第52-54页
·基于语义分析的网页内容与主题相关度的计算	第54-56页
第5章系统实现及其结果分析	第56-64页
·实验环境	第56页
·HERITRIX简介	第56-61页
·Heritrix架构分析	第56-58页
·Heritrix在主题信息采集中的应用	第58-61页
·实验	第61-64页
·评估指标	第61-62页
·种子URL	第62页
·实验结果及分析	第62-64页
第6章总结与展望	第64-66页
·总结	第64-65页
·进一步研究	第65-66页
参考文献	第66-69页
致谢	第69-70页
攻读硕士学位期间发表的论文和参研项目情况	第70页