首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Nutch的科技项目主题搜索引擎研究

摘要第1-6页
ABSTRACT第6-10页
第1章 绪论第10-16页
   ·课题研究背景及意义第10-11页
   ·研究现状与发展趋势第11-14页
     ·搜索引擎历史第11-12页
     ·主题搜索引擎的研究现状第12-13页
     ·搜索引擎发展趋势第13-14页
   ·本文研究内容第14页
   ·本文组织结构第14-16页
第2章 搜索引擎相关技术第16-24页
   ·通用搜索引擎工作原理第16页
   ·通用搜索引擎关键技术第16-19页
     ·网页爬行器第16-17页
     ·网页索引模块第17-18页
     ·网页检索模块第18-19页
   ·通用搜索引擎的不足第19页
   ·主题搜索引擎的系统结构第19-20页
   ·中文分词技术第20-21页
     ·基于字典匹配的分词方法第20页
     ·基于词频统计的分词方法第20-21页
     ·基于语义理解的分词方法第21页
   ·搜索引擎相关软件第21-23页
     ·Nutch介绍第21-22页
     ·Cygwin介绍第22页
     ·Tomcat简介第22-23页
     ·JavaCC简介第23页
   ·本章小结第23-24页
第3章 科技项目主题爬行器的研究第24-36页
   ·主题爬行器模型第24-25页
   ·主题相关性判定模型第25-26页
   ·主题爬行策略第26-31页
     ·基于链接的爬行策略第26-28页
     ·基于内容的爬行策略第28-30页
     ·其他相关爬行策略第30-31页
   ·科技项目爬虫的研究第31-35页
     ·科技项目主题爬行总体设计第31页
     ·种子页面的设定第31-32页
     ·科技项目主题描述与词库的建立第32-33页
     ·科技项目相关性判定第33-34页
     ·科技项目主题爬行策略第34-35页
   ·本章小结第35-36页
第4章 网页排序算法研究第36-43页
   ·网页排序相关研究第36-39页
     ·PageRank算法第36-38页
     ·主题相关性改进算法第38页
     ·基于时间因子的PageRank改进算法第38-39页
   ·基于时间衰减因子的TD-PageRank算法设计第39-40页
     ·基于时间的网页更新策略第39页
     ·内容相关性权值改进第39-40页
     ·TD-PageRank算法第40页
   ·实验第40-42页
     ·实验环境搭建第40-41页
     ·结果分析第41-42页
   ·本章小结第42-43页
第5章 科技项目主题搜索引擎的实现第43-51页
   ·开发环境介绍第43-44页
     ·软硬件开发资源第43页
     ·环境变量设置第43页
     ·开发环境搭建第43-44页
   ·系统体系结构第44-45页
   ·科技项目主题爬行器第45-47页
     ·科技项目主题词库实现第45-46页
     ·科技项目爬行实现第46-47页
   ·科技项目索引器第47-49页
     ·中文分词修改第47-48页
     ·科技项目索引第48-49页
   ·科技项目查询器第49-50页
   ·本章小结第50-51页
第6章 运行测试第51-55页
   ·运行步骤第51-53页
     ·爬行页面准备第51页
     ·运行Crawl命令抓取页面第51-52页
     ·部署项目到Tomcat上第52-53页
   ·运行界面第53-54页
   ·本章小结第54-55页
第7章 总结与展望第55-57页
   ·总结第55页
   ·展望第55-57页
致谢第57-58页
参考文献第58-62页
附录第62-63页
详细摘要第63-66页

论文共66页,点击 下载论文
上一篇:基于向量空间模型的文本分类算法研究
下一篇:基于内容的海量图像搜索引擎研究