首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

博客资源的爬取与检索

摘要第1-9页
ABSTRACT第9-11页
第1章 绪论第11-17页
   ·系统开发背景第11-12页
   ·国内外博客搜索引擎发展现状第12-15页
     ·博客搜索引擎的原型第12-14页
     ·国内外知名博客搜索引擎分析第14-15页
   ·本文的主要工作第15页
   ·本文的组织结构第15-17页
第2章 系统架构设计第17-38页
   ·博客搜索引擎系统需求分析第17页
   ·系统设计目标和原则第17-18页
   ·开发环境第18页
   ·系统功能架构设计第18-30页
     ·总体功能架构第18-23页
     ·插件机制第23-26页
     ·MapReduce分布式处理模型第26-30页
   ·系统技术架构第30-38页
     ·爬取设计第30-33页
     ·索引和检索第33-38页
第3章 系统详细设计第38-56页
   ·重要模块详细设计第38-53页
     ·爬取第38-40页
     ·网页预处理第40-45页
       ·分词处理第40-41页
       ·网页去噪处理第41-42页
       ·网页消重处理第42页
       ·页面重要度计算第42-45页
     ·文档解析第45-47页
     ·索引和检索第47-53页
   ·分布式处理和存储第53-55页
   ·日志第55-56页
第4章 系统实现与测试第56-73页
   ·系统功能实现第56-58页
   ·网页重要度计算第58-61页
   ·正向最大匹配分词算法的实现第61-62页
   ·执行脚本第62-65页
   ·入链提取第65-67页
   ·网页相似度计算第67-70页
   ·系统测试结果与分析第70-73页
第5章 结论第73-74页
参考文献第74-76页
致谢第76-77页
学位论文评阅及答辩情况表第77页

论文共77页,点击 下载论文
上一篇:山东省农业银行固定资产管理系统设计与实现
下一篇:校园网中课件资源的爬取与检索