首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

主题爬行器的研究与实现

摘要第1-5页
Abstract第5-10页
1. 第一章 绪论第10-19页
   ·主题爬行研究的重要意义第10-17页
     ·搜索引擎的兴起第10-12页
     ·搜索引擎的分类第12-14页
     ·主题爬行的提出第14-15页
     ·主题爬行的现状第15-17页
   ·主要工作第17-19页
2. 第二章 主题爬行关键技术第19-39页
   ·通用爬行器介绍第20-22页
   ·主题爬行器介绍第22-24页
   ·文本分类技术第24-32页
     ·文本表示第24-25页
     ·向量空间模型第25-30页
       ·特征项选择第25-28页
       ·特征项赋权第28-29页
       ·文档相似度第29-30页
     ·布尔模型第30页
     ·概率模型第30-31页
     ·分类效果评价第31-32页
   ·爬行策略第32-38页
     ·基于网页内容的爬行策略第32-35页
       ·最优优先策略第32-34页
       ·链接上下文策略第34页
       ·分块策略第34页
       ·上下文图策略及增强学习策略第34-35页
     ·基于网页链接的爬行策略第35-38页
       ·PageRank 算法第35-37页
       ·HITS 算法第37-38页
   ·小结第38-39页
3. 第三章 基于特征项位置信息的权重算法第39-48页
   ·TF-IDF 权重算法的不足之处第39-41页
   ·网页不同位置主题表达能力研究的介绍第41-42页
   ·基于特征项位置信息的权重算法第42-44页
   ·文档类型特征向量的训练第44-45页
   ·增量更新第45-46页
   ·文档分类系统框架第46-48页
4. 第四章 基于URL 综合信息的爬行策略第48-56页
   ·概述第48-50页
   ·URL 的目录层次第50-52页
   ·超链接的锚文本信息第52-53页
   ·基于URL 综合信息的爬行策略第53-56页
5. 第五章 主题爬行器的总体设计第56-59页
   ·系统结构及流程第56-57页
   ·系统工具第57-59页
6. 第六章 主题爬行器详细设计及实现第59-80页
   ·主题训练模块第59-62页
   ·初始种子模块第62-63页
   ·爬行模块第63-74页
     ·构造和维护各个URL 队列第66-67页
     ·获取网页第67-69页
     ·解析网页第69-74页
     ·对网页和超链接的处理第74页
   ·前端分类器第74-75页
   ·后端分类器第75-77页
   ·本地数据存储系统第77-80页
7. 第七章 试验与分析第80-86页
   ·数据集第80页
   ·权重算法对比实验第80-83页
     ·分类效果评价第80-81页
     ·不同加权因子对文档分类影响的测试第81-82页
     ·类别特征向量增量更新对文档分类影响的测试第82-83页
   ·不同爬行策略对比实验第83-86页
     ·实验结果的评价方法第83-84页
     ·试验数据第84-86页
8. 第八章 总结与展望第86-89页
   ·总结第86-87页
   ·主题爬行的技术前景和展望第87-89页
致谢第89-90页
参考文献第90-93页
攻硕之间取得的研究成果第93-94页

论文共94页,点击 下载论文
上一篇:移动银行应用系统的安全通信方案设计与实现
下一篇:视频分享网站的传播学研究