摘要 | 第1-5页 |
ABSTRACT | 第5-9页 |
第一章 绪论 | 第9-11页 |
§1-1 问题的提出 | 第9页 |
§1-2 国内外现状 | 第9-10页 |
§1-3 本文主要研究工作和内容安排 | 第10页 |
§1-4 论文章节安排 | 第10-11页 |
第二章 垂直搜索引擎技术 | 第11-24页 |
§2-1 通用搜索引擎 | 第11-14页 |
2-1-1 通用搜索引擎概述 | 第11-12页 |
2-1-2 通用搜索引擎详细分析 | 第12-14页 |
§2-2 网络爬虫技术 | 第14-18页 |
2-2-1 网络爬虫概念 | 第14页 |
2-2-2 网络爬虫基本原理 | 第14页 |
2-2-3 网络爬虫抓取策略 | 第14-16页 |
2-2-4 网络爬虫设计 | 第16-17页 |
2-2-5 网络爬虫应注意的问题 | 第17-18页 |
§2-3 信息提取技术 | 第18页 |
2-3-1 信息提取简介 | 第18页 |
2-3-2 信息提取技术 | 第18页 |
§2-4 全文索引技术 | 第18-20页 |
2-4-1 全文索引技术概述 | 第18-19页 |
2-4-2 索引方式 | 第19-20页 |
§2-5 中文分词技术 | 第20-21页 |
2-5-1 中文分词介绍 | 第20页 |
2-5-2 中文分词技术 | 第20-21页 |
§2-6 页面排序算法研究 | 第21-22页 |
2-6-1 PageRank算法研究 | 第21-22页 |
2-6-2 HITS算法 | 第22页 |
§2-7 垂直搜索引擎 | 第22-24页 |
第三章 开源全文索引引擎Lucene | 第24-37页 |
§3-1 Lucene概述 | 第24页 |
§3-2 Lucene的索引 | 第24-31页 |
3-2-1 Lucene索引逻辑结构 | 第24-25页 |
3-2-2 索引文件物理结构 | 第25-26页 |
3-2-3 Lucene索引的建立 | 第26-29页 |
3-2-4 索引的合并与优化、同步 | 第29-31页 |
§3-3 Lucene的搜索 | 第31-34页 |
3-3-1 Lucene搜索的建立 | 第31-33页 |
3-3-2 对搜索结果的评分、排序 | 第33-34页 |
§3-4 Lucene的分析器 | 第34-35页 |
3-4-1 Lucene分析器机制 | 第34-35页 |
3-4-2 本系统使用的中文分词机制 | 第35页 |
§3-5 Lucene的创新之处 | 第35-37页 |
第四章 网络爬虫Heritrix框架 | 第37-40页 |
§4-1 Heritrix研究 | 第37-38页 |
4-1-1 Heritrix概述 | 第37页 |
4-1-2 Heritrix结构分析 | 第37-38页 |
§4-2 扩展和定制Heritrix | 第38-40页 |
4-2-1 向Heritrix中添加自己的Extractor | 第38-39页 |
4-2-2 扩展FrontierScheduler来抓取特定的内容 | 第39页 |
4-2-3 在Prefetcher中取消robots.txt的限制 | 第39-40页 |
第五章 手机产品垂直搜索引擎的设计与分析 | 第40-49页 |
§5-1 垂直搜索引擎系统设计 | 第40-41页 |
5-1-1 系统总体需求分析 | 第40页 |
5-1-2 系统总体设计 | 第40-41页 |
5-1-3 开发环境搭建 | 第41页 |
§5-2 爬虫模块的设计 | 第41-44页 |
5-2-1 爬虫的实现思路 | 第41-42页 |
5-2-2 爬虫抓取清单的确定 | 第42-44页 |
§5-3 信息抽取模块 | 第44-47页 |
5-3-1 信息抽取工具的介绍 | 第44-45页 |
5-3-2 信息抽取的思路 | 第45-47页 |
§5-4 索引的建立和数据库设计 | 第47-49页 |
5-4-1 索引的建立 | 第47页 |
5-4-2 数据库设计 | 第47-49页 |
第六章 手机垂直搜索引擎的实施 | 第49-68页 |
§6-1 抓取手机信息网页 | 第49-52页 |
§6-2 网页信息抽取 | 第52-56页 |
§6-3 建立索引、数据库 | 第56-61页 |
6-3-1 构建产品信息词库 | 第56-57页 |
6-3-2 数据库的数据添加 | 第57-59页 |
6-3-3 构建产品信息Lucene的索引结构 | 第59页 |
6-3-4 向Lucene的索引中添加产品信息 | 第59-60页 |
6-3-5 完成产品信息的综合处理 | 第60-61页 |
§6-4 构建搜索模块 | 第61-68页 |
6-4-1 配置文件管理 | 第61-62页 |
6-4-2 搜索相关类设计开发 | 第62-65页 |
6-4-3 前台页面的实现 | 第65-68页 |
第七章 总结与展望 | 第68-69页 |
参考文献 | 第69-71页 |
致谢 | 第71页 |