基于质心具有增量性质的主题爬行

提要	第1-8页
第一章绪论	第8-25页
·互联网的兴起	第8-9页
·通用搜索引擎	第9-14页
·搜索引擎的分类	第9-10页
·搜索引擎的发展历史	第10-11页
·搜索引擎的基本原理	第11-12页
·搜索引擎的局限性	第12-13页
·搜索引擎的未来发展	第13-14页
·面向主题的Internet资源发现	第14-19页
·主题爬行技术概述	第15-17页
·爬行网页集合的后处理	第17-18页
·主题爬行与通用搜索引擎的关系	第18-19页
·本文的研究内容	第19-22页
·研究背景	第19-20页
·关于锚文本（Anchor Text）的假设	第20页
·本文的研究思路与内容	第20-22页
·相关工作	第22-23页
·本文的组织	第23-25页
第二章相关技术	第25-55页
·信息检索技术	第25-27页
·布尔模型	第25-26页
·向量模型	第26-27页
·概率模型	第27页
·监督学习技术	第27-42页
·监督学习的背景	第28页
·特征选择	第28-34页
·贪婪包含算法（Greedy Inclusion Algorithm）	第30-33页
·切断算法（Truncation Algorithm）	第33-34页
·评价文本分类器	第34-36页
·精度测量	第35-36页
·贝叶斯学习器	第36-37页
·朴素贝叶斯学习器	第37页
·最近邻学习器	第37-39页
·优势与不足	第38-39页
·支持向量机（Support Vector Machine）	第39-41页
·超文本分类	第41-42页
·超文本的表示	第41-42页
·主题爬行技术	第42-53页
·爬行框架	第43页
·爬行算法	第43-50页
·Best-First算法	第43-44页
·SharkSearch算法	第44-46页
·双分类器Critic-Apprentice框架	第46-48页
·Context Graphs爬行算法	第48-49页
·增强学习（Reinforcement Learning）	第49-50页
·性能评价	第50-53页
·超文本分类器的性能评价	第52-53页
·小结	第53-55页
第三章 TFIDF-2模型与质心构建	第55-65页
·文档特征权重及其计算	第55-56页
·质心特征权重及其计算	第56-57页
·实验方法与实验结果	第57-63页
·使用质心向量进行文本分类	第57-60页
·使用质心向量提取未标识数据集中的相关文档	第60-62页
·本体与质心向量相结合提取未标识数据集中的相关文档	第62-63页
·小结	第63-65页
第四章基于质心的增量式主题爬行	第65-77页
·概述	第65页
·网页抓取与解析	第65-66页
·锚文本在主题爬行中的使用	第66-67页
·后端分类器的训练	第67页
·前端分类器的训练	第67-69页
·爬行优先级队列	第69页
·爬行框架	第69-70页
·主题爬行	第70-72页
·具有增量性质的主题爬行	第71-72页
·实验方法与结果	第72-75页
·比较Sum+Back与Best-First两种爬行策略的效率	第72-73页
·对比链接上下文信息三种提取方法的性能	第73页
·检验TFIDF-2模型的有效性	第73-74页
·基于质心向量的增量式主题爬行	第74-75页
·小结	第75-77页
第五章总结与展望	第77-80页
·本文的创新工作	第77-78页
·不足之处与未来的工作	第78-80页
参考文献	第80-89页
攻读博士期间发表的学术论文及其它成果	第89-91页
致谢	第91-92页
摘要	第92-96页
ABSTRACT	第96-99页