首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的科技主题搜索引擎Crawler的研究与实现

摘要第1-6页
Abstract第6-9页
1 绪论第9-16页
   ·研究背景与研究意义第9-10页
   ·国内外研究现状第10-12页
   ·搜索引擎工作原理第12-14页
     ·通用搜索引擎工作原理第12-13页
     ·主题搜索引擎工作原理第13-14页
   ·本文主要研究内容和组织结构第14-16页
2 Nutch 搜索引擎介绍第16-20页
   ·Nutch 搜索引擎特点第16页
   ·系统架构第16-20页
     ·Nutch 中的 Crawler 组成第16-17页
     ·Nutch 中的 Crawler 工作流程第17-20页
3 Crawler 搜索策略的研究第20-34页
   ·基于链接结构特征的搜索策略第20-23页
     ·PageRank 算法第20-22页
     ·HITS 算法第22-23页
   ·基于内容评价的搜索策略第23-25页
     ·Fish Search 算法第23-24页
     ·Shark Search 算法第24-25页
   ·改进以后的搜索策略第25-31页
     ·遗传算法思想原理第25-27页
     ·遗传算法的应用第27-31页
   ·主题 Crawler 的策略总结第31-32页
   ·Crawler 提高程序性能的技术第32-34页
4 科技主题搜索引擎设计第34-43页
   ·系统体系结构第34-37页
     ·信息的抓取模块第34-35页
     ·信息的预处理模块第35-36页
     ·信息的查询服务模块第36-37页
   ·起始 URL 列表的形成第37-39页
     ·筛选出高质量科技页面的规则第37-38页
     ·URL 队列的形成第38-39页
   ·科技主题页面的分布特征第39-40页
   ·中文分词第40-41页
   ·系统界面第41页
   ·系统总体工作流程描述第41-43页
5 系统实现技术难题和实验结果第43-48页
   ·主题相关性判别第43页
   ·开发的环境介绍第43-44页
   ·运行步骤第44-48页
     ·设置环境变量第44页
     ·抓取页面的准备工作第44页
     ·运行 Crawl 命令抓取网站页面第44-45页
     ·在 Tomcat 上部署项目第45-48页
结论第48-49页
参考文献第49-53页
在学研究成果第53-54页
致谢第54页

论文共54页,点击 下载论文
上一篇:IHE下医学影像数据库架构及其关键技术研究
下一篇:基于IPv6的P2P流量检测技术研究