摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-15页 |
·研究背景 | 第9-12页 |
·国内外研究现状 | 第12-13页 |
·本文研究方法和章节安排 | 第13-15页 |
第二章 搜索引擎及网页排序算法概述 | 第15-29页 |
·搜索引擎原理 | 第15-21页 |
·搜索引擎结构 | 第15-20页 |
·搜索引擎核心技术 | 第20-21页 |
·搜索引擎运行流程 | 第21页 |
·国内外搜索引擎对比 | 第21-24页 |
·网页排序算法原理 | 第24页 |
·网页排序算法对比 | 第24-26页 |
·搜索引擎评判标准 | 第26-27页 |
·本章小结 | 第27-29页 |
第三章 开源搜索引擎Nutch框架分析 | 第29-39页 |
·Nutch数据结构分析 | 第29页 |
·网页抓取框架分析 | 第29-33页 |
·初始化Injector模块 | 第29-31页 |
·目标网页处理Generator模块 | 第31-32页 |
·网页内容下载Fetcher模块 | 第32-33页 |
·数据存储框架分析 | 第33-36页 |
·网页数据分析ParseSegment模块 | 第33页 |
·网页过滤与聚合CrawlDb模块 | 第33-34页 |
·数据反向链接LinkDb模块 | 第34-35页 |
·索引数据处理SolrIndexer模块 | 第35-36页 |
·Nutch运行流程 | 第36-38页 |
·本章小结 | 第38-39页 |
第四章 Nutch框架下中文分词和PageRank算法的实现 | 第39-54页 |
·Nutch中文分词背景 | 第39-40页 |
·Nutch中文分词实现方法 | 第40-42页 |
·PageRank算法原理 | 第42-44页 |
·Nutch框架下PageRank算法流程设计 | 第44-47页 |
·PageRank值存储设计和实现 | 第47-49页 |
·性能评价 | 第49-53页 |
·系统评价标准 | 第49页 |
·PageRank值偏差对比实验 | 第49-51页 |
·Nutch抓取效率对比实验 | 第51页 |
·Nutch检索时间对比实验 | 第51-53页 |
·本章小结 | 第53-54页 |
第五章 基于PageRank值的OPIC改进算法 | 第54-70页 |
·数据挖掘算法背景 | 第54页 |
·网页排序算法对比 | 第54-58页 |
·HITS算法研究 | 第54-55页 |
·PageRank相关算法研究 | 第55-56页 |
·OPIC算法研究 | 第56-58页 |
·OPIC算法性能的不足 | 第58页 |
·OPIC改进算法(P-OPIC算法) | 第58-61页 |
·BBS网页排序算法核心思想 | 第58-59页 |
·P-OPIC算法关键步骤 | 第59-60页 |
·外链比例调节因子 | 第60-61页 |
·关键词权重修正PageRank算法 | 第61页 |
·算法性能测试 | 第61-69页 |
·网页排序算法评价标准 | 第62页 |
·OPIC算法和P-OPIC算法TOPN查准率对比试验 | 第62-64页 |
·OPIC算法和P-OPIC算法排序效果对比试验 | 第64-66页 |
·P-OPIC算法外链比例因子对比实验 | 第66-69页 |
·本章小结 | 第69-70页 |
第六章 系统分析及展望 | 第70-71页 |
参考文献 | 第71-75页 |
致谢 | 第75页 |