首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题搜索网络爬虫的设计与研究

摘要第1-4页
Abstract第4-9页
第一章 绪论第9-22页
   ·通用搜索引擎简介第9-15页
     ·通用搜索引擎的历史第9-10页
     ·通用搜索引擎的分类第10-14页
     ·通用搜索引擎的发展趋势第14-15页
   ·主题搜索引擎简介第15-18页
     ·主题搜索引擎的产生背景第15-16页
     ·主题搜索引擎的特点及其发展现状第16-18页
   ·网络爬虫第18-20页
     ·网络爬虫的概念及运行机制第18页
     ·网络爬虫的性能第18-19页
     ·网络爬虫的分类第19-20页
   ·本文的主要内容与组织第20-22页
     ·本文的主要内容第20页
     ·本文的组织第20-22页
第二章 主题网络爬虫设计及影响性能的因素第22-35页
   ·主题网页的特性第22-24页
     ·Hub 特性第22页
     ·Linkage /Sibling Locality 特性第22-23页
     ·站点主题特性第23页
     ·隧道特性第23-24页
     ·深度网页特性第24页
   ·影响相关度评估的网页要素分析第24-29页
     ·网页元数据第24-25页
     ·网页标签数据第25-26页
     ·网页链接信息第26-29页
   ·页面的主题相关性判定模型第29-32页
   ·主题网络爬虫需要解决的技术问题第32-33页
   ·主题网络爬虫的架构第33-34页
   ·本章小结第34-35页
第三章 新特征提取方法的设计第35-47页
   ·文本分类及特征提取第35-36页
     ·文本分类第35页
     ·特征提取第35-36页
   ·已有的x~2 统计方法和MI 方法第36-38页
     ·x~2 统计方法第36-37页
     ·MI 互信息方法第37-38页
   ·新算法EXM 的提出第38-40页
     ·影响特征权值的因素第38-39页
     ·新算法EXM 的设计第39-40页
   ·EXM 特征提取方法的性能分析及实验第40-42页
     ·实验设计第40页
     ·训练文档的选择及预处理第40-41页
     ·分类器选择第41页
     ·评价标准第41页
     ·实验结果第41-42页
   ·二元特征选择算法第42-46页
     ·优势率二元特征选择方法第42-43页
     ·优势率算法的改进第43-44页
     ·特征词条的权重计算第44-45页
     ·EOR 算法实验及分析第45-46页
   ·本章小结第46-47页
第四章 主题网络爬虫 Tlarbin 的设计与实现第47-56页
   ·开源网络爬虫Larbin第47页
   ·Tlarbin 对Larbin 的改进设计第47-50页
     ·主题与网页的向量空间模型表示第47-48页
     ·起始链接的筛选第48-49页
     ·中文预处理第49-50页
     ·启发式算法的设计第50页
   ·Tlarbin 的构造第50-54页
     ·TopicalLarbin 中的数据结构第51-53页
     ·Tlarbin 的功能模块第53-54页
   ·Tlarbin 的伪代码实现第54-55页
   ·本章小结第55-56页
第五章 实验及分析第56-62页
   ·实验环境及系统配置第56页
   ·主题选择及种子选取第56页
   ·评测标准第56-57页
   ·Tlarbin 的性能测试第57-58页
   ·TF-EOR 测试第58-59页
   ·链接上下文测试第59-61页
   ·本章小结第61-62页
第六章 总结与展望第62-64页
   ·本文总结第62-63页
   ·进一步研究展望第63-64页
参考文献第64-68页
致谢第68-69页
在读期间发表的学术论文与取得的研究成果第69页

论文共69页,点击 下载论文
上一篇:实值检测器生成算法研究
下一篇:医学切片图像的配准