垂直搜索引擎的抓取技术研究
| 摘要 | 第1-4页 |
| Abstract | 第4-9页 |
| 第1章 绪论 | 第9-24页 |
| ·课题背景及意义 | 第9-10页 |
| ·垂直搜索抓取技术中目前的研究热点 | 第10-22页 |
| ·垂直搜索隐蔽网研究现状 | 第10-18页 |
| ·垂直搜索时效性问题研究现状 | 第18-22页 |
| ·本文的工作和组织 | 第22-24页 |
| 第2章 垂直搜索抓取系统框架 | 第24-33页 |
| ·垂直搜索抓取系统的体系结构 | 第24页 |
| ·垂直搜索抓取策略可扩展插件 | 第24-27页 |
| ·垂直搜索抓取系统的分布式和可扩展性 | 第27-32页 |
| ·分布式特性 | 第27-28页 |
| ·分布式抓取系统的工作流程 | 第28-31页 |
| ·可扩展性 | 第31-32页 |
| ·本章小结 | 第32-33页 |
| 第3章 垂直搜索抓取系统的隐蔽网抓取 | 第33-44页 |
| ·隐蔽网(Hidden Web)概述 | 第33-34页 |
| ·隐蔽网抓取问题 | 第34-37页 |
| ·切入点发现 | 第34-35页 |
| ·查询构造 | 第35-36页 |
| ·查询结果消重 | 第36-37页 |
| ·自学习的中文地址判重方法 | 第37-43页 |
| ·中文地址切分 | 第38-39页 |
| ·地址规范度 | 第39-40页 |
| ·冗余信息提取 | 第40页 |
| ·规范表,不规范表与映射表 | 第40-41页 |
| ·判重算法 | 第41-43页 |
| ·本章小结 | 第43-44页 |
| 第4章 垂直搜索抓取系统的时效性 | 第44-53页 |
| ·搜索引擎的时效性问题 | 第44-46页 |
| ·传统时效性解决方法 | 第46-47页 |
| ·检测目标网站更新规律 | 第46页 |
| ·基于用户查询分布概率 | 第46-47页 |
| ·基于查询驱动的实时抓取 | 第47-52页 |
| ·TSVS基本模型 | 第47-48页 |
| ·系统设计 | 第48-50页 |
| ·用户交互模式 | 第50-52页 |
| ·本章小结 | 第52-53页 |
| 第5章 垂直搜索抓取系统的效率与性能 | 第53-64页 |
| ·总体的抓取模式 | 第53-55页 |
| ·间隔批量模式 | 第53-54页 |
| ·稳定持续模式 | 第54页 |
| ·抓取模式比较 | 第54-55页 |
| ·总体的更新策略 | 第55-58页 |
| ·整体预存更新 | 第55页 |
| ·及时替换式更新 | 第55-56页 |
| ·更新策略比较 | 第56-58页 |
| ·总体的抓取频率 | 第58-61页 |
| ·固定频率 | 第58页 |
| ·变化频率 | 第58-59页 |
| ·抓取频率比较 | 第59-60页 |
| ·基于查询驱动和固定频率相结合 | 第60-61页 |
| ·抓取系统综合比较 | 第61-63页 |
| ·本章小结 | 第63-64页 |
| 第6章 测试和实验 | 第64-68页 |
| ·地址判重实验 | 第64-65页 |
| ·规范度计算 | 第64-65页 |
| ·地址判重率 | 第65页 |
| ·时效性实验 | 第65-68页 |
| 第7章 结论和展望 | 第68-70页 |
| ·总结 | 第68页 |
| ·不足与展望 | 第68-70页 |
| 参考文献 | 第70-73页 |
| 致谢 | 第73-74页 |
| 个人简历 | 第74页 |