首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

主题搜索引擎的研究与实现

摘要第1-4页
Abstract第4-5页
目录第5-7页
第一章 引言第7-11页
   ·研究背景与意义第7页
   ·搜索引擎的发展状况第7-9页
   ·搜索引擎评价第9页
   ·本文组织结构第9-11页
第二章 搜索引擎概述及核心技术第11-25页
   ·搜索引擎的分类第11-12页
   ·搜索引擎的原理第12-14页
   ·搜索引擎的主要模块第14-16页
   ·信息采集第16-20页
     ·网络信息爬取第17页
     ·网络爬虫策略第17-18页
     ·网络爬虫原理第18-19页
     ·网络爬虫中重要组成部分第19-20页
   ·文本处理第20-21页
   ·中文分词技术第21-24页
     ·基于字符串匹配的分词方法第22-23页
     ·基于统计的分词方法第23-24页
   ·索引技术第24页
   ·本章小结第24-25页
第三章 主题搜索引擎研究与分析第25-30页
   ·主题搜索引擎与通用搜索引擎的比较第25-26页
   ·网页信息的结构化提取第26-27页
   ·主题搜索引擎的体系结构第27-29页
   ·主题信息的抓取第29页
   ·本章小结第29-30页
第四章 主题爬虫搜索策略研究第30-42页
   ·面向主题的爬虫信息提取第30-34页
     ·主题爬虫信息提取的优点第30页
     ·主题相关性算法研究第30-31页
     ·PageRank算法第31-32页
     ·HITS算法第32-33页
     ·PageRank算法和HITS算法的区别第33-34页
   ·抽象的相关排序模型第34-36页
     ·一个具体的相关排序模型第35页
     ·向量空间模型第35-36页
   ·主题相关判断算法第36-37页
   ·抓取主题相关URL的改进算法第37-39页
   ·URL增量算法第39-40页
   ·本章小结第40-42页
第五章 主题搜索引擎的实现第42-57页
   ·环境的搭建过程第42-43页
     ·Nutch部署第42页
     ·Nutch前端部署第42-43页
   ·相关改进算法的实现第43-44页
   ·nutch添加中文庖丁解牛分词插件第44-53页
     ·在analysis-zh文件夹中建立plugin.xml和build.xml第44-46页
     ·在扩展点实现插件第46-47页
     ·在lib-paoding-analyzers文件夹中建立plugin.xml和build.xml第47-48页
     ·修改nutch配置文件第48-52页
     ·生成paoding-analysis.jar包第52-53页
     ·重新编译ant第53页
   ·用Nutch抓取网页第53-55页
   ·系统测试及结果分析第55-56页
   ·本章小结第56-57页
第六章 总结与展望第57-59页
参考文献第59-62页
攻读硕士期间发表的论文第62-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:云南天然橡胶竞价交易系统研究与开发
下一篇:基于线裁剪的内容感知图像缩放技术研究