主题爬行器的研究与实现

摘要	第1-5页
Abstract	第5-10页
1. 第一章绪论	第10-19页
·主题爬行研究的重要意义	第10-17页
·搜索引擎的兴起	第10-12页
·搜索引擎的分类	第12-14页
·主题爬行的提出	第14-15页
·主题爬行的现状	第15-17页
·主要工作	第17-19页
2. 第二章主题爬行关键技术	第19-39页
·通用爬行器介绍	第20-22页
·主题爬行器介绍	第22-24页
·文本分类技术	第24-32页
·文本表示	第24-25页
·向量空间模型	第25-30页
·特征项选择	第25-28页
·特征项赋权	第28-29页
·文档相似度	第29-30页
·布尔模型	第30页
·概率模型	第30-31页
·分类效果评价	第31-32页
·爬行策略	第32-38页
·基于网页内容的爬行策略	第32-35页
·最优优先策略	第32-34页
·链接上下文策略	第34页
·分块策略	第34页
·上下文图策略及增强学习策略	第34-35页
·基于网页链接的爬行策略	第35-38页
·PageRank 算法	第35-37页
·HITS 算法	第37-38页
·小结	第38-39页
3. 第三章基于特征项位置信息的权重算法	第39-48页
·TF-IDF 权重算法的不足之处	第39-41页
·网页不同位置主题表达能力研究的介绍	第41-42页
·基于特征项位置信息的权重算法	第42-44页
·文档类型特征向量的训练	第44-45页
·增量更新	第45-46页
·文档分类系统框架	第46-48页
4. 第四章基于URL 综合信息的爬行策略	第48-56页
·概述	第48-50页
·URL 的目录层次	第50-52页
·超链接的锚文本信息	第52-53页
·基于URL 综合信息的爬行策略	第53-56页
5. 第五章主题爬行器的总体设计	第56-59页
·系统结构及流程	第56-57页
·系统工具	第57-59页
6. 第六章主题爬行器详细设计及实现	第59-80页
·主题训练模块	第59-62页
·初始种子模块	第62-63页
·爬行模块	第63-74页
·构造和维护各个URL 队列	第66-67页
·获取网页	第67-69页
·解析网页	第69-74页
·对网页和超链接的处理	第74页
·前端分类器	第74-75页
·后端分类器	第75-77页
·本地数据存储系统	第77-80页
7. 第七章试验与分析	第80-86页
·数据集	第80页
·权重算法对比实验	第80-83页
·分类效果评价	第80-81页
·不同加权因子对文档分类影响的测试	第81-82页
·类别特征向量增量更新对文档分类影响的测试	第82-83页
·不同爬行策略对比实验	第83-86页
·实验结果的评价方法	第83-84页
·试验数据	第84-86页
8. 第八章总结与展望	第86-89页
·总结	第86-87页
·主题爬行的技术前景和展望	第87-89页
致谢	第89-90页
参考文献	第90-93页
攻硕之间取得的研究成果	第93-94页