基于分布式并行计算的搜索引擎的研究与设计
中文摘要 | 第1-3页 |
ABSTRACT | 第3-6页 |
目录 | 第6-8页 |
第1章 引言 | 第8-10页 |
1.1 问题的提出 | 第8-9页 |
1.2 研究内容 | 第9页 |
1.2.1 并行架构 | 第9页 |
1.2.2 知识提取 | 第9页 |
1.3 内容安排 | 第9-10页 |
第2章 理论基础 | 第10-16页 |
2.1 并行程序设计 | 第10-12页 |
2.1.1 并行编程 | 第10页 |
2.1.2 并行算法设计 | 第10-11页 |
2.1.3 井行编程模型 | 第11-12页 |
2.2 Java分布式计算 | 第12-13页 |
2.3 Java多线程及I/O | 第13-14页 |
2.3.1 Java多线程 | 第13页 |
2.3.2 Java I/O | 第13-14页 |
2.4 web搜索技术 | 第14-16页 |
第3章 架构与总体设计 | 第16-24页 |
3.1 总体模型 | 第16-18页 |
3.2 Crawlet架构 | 第18-21页 |
3.2.1 模型 | 第19页 |
3.2.2 井行结构模式 | 第19-21页 |
3.3 Search架构 | 第21-24页 |
3.3.1 模块 | 第21-22页 |
3.3.2 并行结构模式 | 第22-24页 |
第4章 搜索引擎实现 | 第24-44页 |
4.1 Web信息采集 | 第24-34页 |
4.1.1 信息采集器 | 第24-33页 |
4.1.2 数据存储 | 第33-34页 |
4.2 Web挖掘 | 第34-37页 |
4.2.1 数据处理 | 第34-36页 |
4.2.2 内容分析 | 第36-37页 |
4.2.3 结构分析 | 第37页 |
4.2.4 内容摘要 | 第37页 |
4.3 Web检索 | 第37-44页 |
4.3.1 分词问题 | 第38-41页 |
4.3.2 倒序索引 | 第41-44页 |
第5章 搜索引擎评测 | 第44-51页 |
5.1 查全率、查准率 | 第44页 |
5.2 网页评测算法 | 第44-51页 |
5.2.1 PageRank | 第44-47页 |
5.2.2 HITS算法 | 第47-48页 |
5.2.3 HillTop算法 | 第48-49页 |
5.2.4 改进的想法 | 第49-51页 |
第6章 领域应用 | 第51-53页 |
6.1 移动搜索 | 第51-52页 |
6.1.1 SMS | 第51页 |
6.1.2 WAP | 第51-52页 |
6.2 领域搜索 | 第52页 |
6.3 个性化搜索 | 第52-53页 |
第7章 总结 | 第53-54页 |
参考文献 | 第54-57页 |
攻读硕士学位期间公开发表的学术论文 | 第57-58页 |
致谢 | 第58页 |