并行爬行器的架构与优化策略
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第1章 绪论 | 第8-14页 |
| ·背景 | 第8-11页 |
| ·互联网与搜索引擎 | 第8-11页 |
| ·爬行器 | 第11页 |
| ·相关工作 | 第11-12页 |
| ·论文的组织结构 | 第12-14页 |
| 第2章 爬行器技术概述 | 第14-22页 |
| ·通用爬行器模型 | 第14-15页 |
| ·爬行器的种类 | 第15-16页 |
| ·设计爬行器需要考虑的问题 | 第16-18页 |
| ·爬行器相关技术 | 第18-21页 |
| ·启发策略 | 第18-19页 |
| ·并行爬行 | 第19页 |
| ·网页存储 | 第19-20页 |
| ·页面更新 | 第20页 |
| ·爬行陷阱 | 第20-21页 |
| ·深度爬行 | 第21页 |
| ·小结 | 第21-22页 |
| 第3章 并行爬行器的协作与同步 | 第22-34页 |
| ·并行爬行器的架构 | 第22-23页 |
| ·任务分配 | 第23-25页 |
| ·并行爬行器的协作方式 | 第25-33页 |
| ·协作算法 | 第25-27页 |
| ·系统内部通信 | 第27-29页 |
| ·数据传递与共享 | 第29-30页 |
| ·数据的并发访问 | 第30-33页 |
| ·小结 | 第33-34页 |
| 第4章 并行爬行器的优化策略 | 第34-46页 |
| ·冲突规避 | 第34-36页 |
| ·问题描述 | 第34页 |
| ·解决方案 | 第34-36页 |
| ·URL索引 | 第36-41页 |
| ·问题描述 | 第36页 |
| ·解决方案 | 第36-39页 |
| ·实验 | 第39-41页 |
| ·DNS缓冲 | 第41-44页 |
| ·问题描述 | 第41页 |
| ·解决方案 | 第41-43页 |
| ·实验 | 第43-44页 |
| ·小结 | 第44-46页 |
| 第5章 系统设计与实现 | 第46-64页 |
| ·系统架构和工作流程 | 第46-48页 |
| ·Crawler | 第48-50页 |
| ·Arbiter | 第50-51页 |
| ·Fetch | 第51-54页 |
| ·Uidx | 第54-58页 |
| ·实验 | 第58-62页 |
| ·小结 | 第62-64页 |
| 结论 | 第64-66页 |
| 参考文献 | 第66-70页 |
| 攻读学位期间发表的学术论文 | 第70-72页 |
| 致谢 | 第72页 |