搜索引擎中的数据存储问题研究

第1章绪论	第1-14页
1．1 搜索引擎简介	第7-10页
1．1．1 搜索引擎的定义	第7页
1．1．2 搜索引擎的发展	第7-8页
1．1．3 搜索引擎的分类	第8-9页
1．1．4 当前主要搜索引擎	第9-10页
1．2 研究现状	第10-11页
1．3 搜索引擎的发展动向	第11-13页
1．4 内容安排	第13-14页
第2章搜索引擎技术	第14-24页
2．1 搜索引擎的挑战	第14-16页
2．1．1 传统信息检索技术	第14-15页
2．1．2 Web信息的挑战	第15-16页
2．2 搜索引擎的体系结构	第16-20页
2．2．1 Crawler	第16-18页
2．2．2 Indexer	第18-19页
2．2．3 Searcher	第19-20页
2．3 相关技术	第20-22页
2．3．1 分布式技术	第20页
2．3．2 中文分词	第20-21页
2．3．3 网页排序	第21页
2．3．4 海量数据存储	第21页
2．3．5 压缩技术	第21-22页
2．4 实际系统研究	第22-24页
2．4．1 Google的整体结构	第22-23页
2．4．2 Google的工作过程	第23-24页
第3章搜索引擎中的存储数据	第24-33页
3．1 搜索引擎中的数据	第24页
3．2 存储实现技术	第24-26页
3．2．1 存储器模型	第24-25页
3．2．2 存储技术	第25-26页
3．3 存储方式选择	第26-29页
3．3．1 页面数据	第26-27页
3．3．2 索引数据	第27-28页
3．3．3 URI数据	第28-29页
3．4 实际系统研究	第29-33页
3．4．1 Google 中的数据存储	第29-31页
3．4．2 Lucene 中的索引数据存储	第31-32页
3．4．3 Nutch 中的页面数据存储	第32-33页
第4章数据存储系统WDB的实现	第33-40页
4．1 设计特点	第33页
4．2 体系结构	第33-36页
4．2．1 数据访问模块	第35页
4．2．2 缓冲区管理模块	第35页
4．2．3 事务管理模块	第35页
4．2．4 锁管理模块	第35-36页
4．2．5 日志管理模块	第36页
4．2．6 元数据管理模块	第36页
4．3 API接口	第36-38页
4．3．1 基本API接口层	第37-38页
4．4 性能测试	第38-40页
第5章利用WDB实现CRAWLER	第40-45页
5．1 CRAWLER的数据存储	第40-41页
5．1．1 表dmntbl_#DomainID	第40页
5．1．2 表domain_info	第40页
5．1．3 表global_info	第40-41页
5．1．4 表timestamp	第41页
5．2 WDB提供的CRAWLERAPI接口	第41-42页
5．3 数据存储服务过程	第42-44页
5．3．1 连接建立过程	第42页
5．3．2 具体请求数据格式	第42-44页
5．4 试验结果	第44-45页
第6章总结与展望	第45-46页
参考文献	第46-49页
致谢	第49页