首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题搜索引擎中的爬取技术研究

摘要第1-10页
ABSTRACT第10-11页
第一章 绪论第11-17页
   ·论文背景第11-12页
   ·国内外研究现状第12-14页
     ·CORA 系统第12页
     ·IBM Focused Crawler 系统第12-13页
     ·北大天网主题搜索第13页
     ·南京大学的IDGS第13-14页
   ·论文主要工作第14-15页
   ·论文组织结构第15-17页
第二章 相关理论第17-26页
   ·Web 页面的分布特征第17-19页
     ·H/A 特征第17-18页
     ·主题关联特征第18-19页
   ·爬虫结构分析第19-22页
     ·普通爬虫的工作流程第19-21页
     ·主题爬虫的工作流程第21-22页
   ·普通爬虫的爬行算法第22-25页
     ·深度优先爬行算法第22-23页
     ·广度优先爬行算法第23-24页
     ·链接优先级排序第24-25页
   ·本章小结第25-26页
第三章 基于标签属性的网页去噪方法第26-35页
   ·基本概念第26-28页
     ·HTML 结构第26-27页
     ·TFIDF 权重第27-28页
     ·文本信息模型第28页
   ·去噪算法思想第28-32页
     ·算法依据第28-29页
     ·相似性计算第29-30页
     ·极大相容类第30-31页
     ·算法描述第31-32页
   ·实验分析第32-33页
     ·实验数据和分类器选择第32页
     ·评测标准第32-33页
     ·实验结果及分析第33页
   ·本章小结第33-35页
第四章 基于动态隧道技术的爬行算法第35-46页
   ·主题爬行算法第35-37页
     ·基于内容分析的爬行算法第35-36页
     ·基于链接分析的爬行算法第36-37页
     ·两类爬行算法的比较第37页
   ·主题漂移问题的解决第37-39页
     ·BFS 算法的改进第37-38页
     ·新算法中的链接分析第38-39页
   ·主题孤岛问题分析第39-45页
     ·主题孤岛问题第39-40页
     ·现有爬行算法的缺陷第40-42页
     ·解决主题孤岛的思想第42-45页
   ·本章小结第45-46页
第五章 主题爬虫设计与实现第46-60页
   ·Nutch 简要分析第46-48页
     ·Nutch 结构第46-47页
     ·Nutch 工作流程第47-48页
   ·主题搜索引擎设计与实现第48-53页
     ·系统总体框架第48页
     ·系统主要模块的设计第48-50页
     ·系统实现方案第50-53页
   ·实验平台与运行环境第53-54页
     ·系统部署第53页
     ·运行环境第53-54页
   ·系统测试与分析第54-59页
     ·测试方案第54-55页
     ·测试结果及分析第55-59页
   ·本章小结第59-60页
第六章 总结与展望第60-62页
   ·主要工作及创新点第60页
   ·未来工作展望第60-62页
致谢第62-63页
参考文献第63-67页
作者在学期间取得的学术成果第67页

论文共67页,点击 下载论文
上一篇:个性化教育中的学习者模型技术研究
下一篇:云计算应用引擎计费机制研究与实现