首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题网络爬虫的研究和实现

摘要第1-5页
Abstract第5-9页
第1章 绪论第9-12页
   ·概述第9页
   ·国内外研究现状第9-11页
   ·本文的主要研究内容及组织结构第11-12页
第2章 网络爬虫的体系结构第12-19页
   ·搜索引擎概述第12-14页
     ·搜索引擎的工作原理第12-13页
     ·搜索引擎的分类第13-14页
   ·通用爬虫的体系结构第14-16页
   ·主题爬虫的体系结构第16-18页
   ·本章小结第18-19页
第3章 主题爬虫关键技术的研究第19-30页
   ·文本特征项提取方法的研究第19-21页
   ·主题爬虫搜索策略的研究第21-27页
     ·广度和深度优先搜索策略第22-23页
     ·基于内容的搜索策略第23-24页
     ·基于链接的搜索策略第24-27页
   ·页面消重技术分析第27-29页
     ·URL消重第28-29页
     ·内容消重第29页
   ·本章小结第29-30页
第4章 数码相机主题爬虫系统设计与分析第30-50页
   ·开发工具简介第30-32页
     ·Heritrix第30-31页
     ·Spring第31-32页
   ·系统总体设计第32-35页
     ·系统模块设计第32-33页
     ·系统流程设计第33-35页
   ·数码相机初始种子集选择第35页
   ·页面抓取模块第35-40页
     ·页面抓取模块流程第35-37页
     ·页面抓取模块分析与设计第37-40页
   ·页面分析模块第40-43页
     ·页面主题信息提取第40-41页
     ·页面URL解析实现第41-43页
   ·主题PR值算法计算模块第43-44页
     ·主题相关度模型第43页
     ·基于主题相关度PageRank算法的改进第43-44页
   ·中文分词模块第44-47页
     ·中文分词算法第44-45页
     ·中文分词模块实现第45-47页
   ·URL管理模块第47-48页
   ·数据库设计第48-49页
   ·本章小结第49-50页
第5章 系统界面和实验数据分析第50-55页
   ·系统界面第50-53页
     ·系统平台第50页
     ·系统界面以及操作流程第50-53页
   ·实验数据分析第53-54页
   ·本章小结第54-55页
第6章 结束语第55-57页
   ·全文总结第55页
   ·问题与展望第55-57页
致谢第57-58页
参考文献第58-60页

论文共60页,点击 下载论文
上一篇:基于Android的多媒体系统设计与实现
下一篇:雪粒子和高速物体交互的三维模拟研究