首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

分布式主题搜索引擎的研究与实现

摘要第1-6页
Abstract第6-10页
第一章 绪论第10-14页
   ·研究背景和意义第10页
   ·国内外研究现状第10-12页
   ·研究目标及拟解决的关键问题第12-13页
   ·论文组织结构第13页
   ·本章小结第13-14页
第二章 Nutch 及主题搜索引擎第14-31页
   ·Nutch 开源搜索引擎第14-21页
     ·Nutch 概述第14-15页
     ·Nutch 基本架构第15-17页
     ·Nutch 工作流程第17-21页
       ·Nutch 数据采集模块第18-20页
       ·Nutch 索引模块第20-21页
       ·Nutch 查询模块第21页
   ·Hadoop 分布式计算平台第21-27页
     ·Hadoop 概述第21-23页
     ·MapReduce 分布式编程框架第23-25页
     ·Hadoop 分布式文件系统HDFS第25-27页
   ·主题搜索引擎相关技术第27-30页
     ·主题搜索引擎的概念第27-28页
     ·主题搜索引擎与通用搜索引擎的差别第28页
     ·主题搜索引擎工作原理第28-30页
   ·本章小结第30-31页
第三章 改进HDFS 设计第31-35页
   ·HDFS 设计缺陷及解决方案分析第31-32页
     ·HDFS 设计存在的问题第31-32页
     ·可行解决方案分析第32页
   ·文件分片大小动态调整提高负载均衡第32-34页
     ·已有的改进方案弊端分析第32-33页
     ·新的文件分片大小动态调整方案第33-34页
   ·本章小结第34-35页
第四章 主题词典建立方法的改进第35-42页
   ·不同的主题词典建立方式比较第35-37页
     ·人工建立主题词典分析第35页
     ·信息增益模型建立主题词典分析第35-36页
     ·词共现模型建立主题词典分析第36-37页
   ·主题词典建立方式的改进第37-41页
     ·DOM 树第37-38页
     ·基于DOM 树改进词共现模型建立主题词典第38-41页
   ·本章小结第41-42页
第五章 主题资源采集策略第42-50页
   ·基于元搜索获取主题爬虫入口地址第42-44页
     ·传统与基于元搜索爬虫入口地址获取比较第42页
     ·基于元搜索获取主题爬虫入口地址第42-44页
   ·改进向量空间模型第44-48页
     ·向量空间模型第44-46页
     ·改进向量空间模型分析页面主题相关度第46-48页
   ·主题资源采集第48-49页
     ·网页标签与主题资源采集的关系分析第48页
     ·主题资源采集策略第48-49页
   ·本章小结第49-50页
第六章 分布式主题搜索引擎实现及结果分析第50-59页
   ·分布式主题搜索引擎实现第50-53页
     ·分布式环境的搭建第50-51页
     ·主题搜索引擎总体架构第51-52页
     ·检索结果分析第52-53页
   ·实验以及结果分析第53-58页
     ·改进HDFS 设计前后结果对比分析第53-54页
       ·改进HDFS 设计的测试实验第53-54页
       ·运行结果对比分析第54页
     ·主题词典对主题资源采集影响对比实验第54-56页
     ·主题资源采集性能实验及结果分析第56-58页
   ·本章小结第58-59页
总结与展望第59-61页
 总结第59页
 展望第59-61页
参考文献第61-63页
攻读硕士学位期间取得的研究成果第63-64页
致谢第64页

论文共64页,点击 下载论文
上一篇:基于Nutch的并行搜索系统的优化设计
下一篇:机组乘务员自动排班系统与算法应用