垂直搜索引擎的抓取技术研究
摘要 | 第1-4页 |
Abstract | 第4-9页 |
第1章 绪论 | 第9-24页 |
·课题背景及意义 | 第9-10页 |
·垂直搜索抓取技术中目前的研究热点 | 第10-22页 |
·垂直搜索隐蔽网研究现状 | 第10-18页 |
·垂直搜索时效性问题研究现状 | 第18-22页 |
·本文的工作和组织 | 第22-24页 |
第2章 垂直搜索抓取系统框架 | 第24-33页 |
·垂直搜索抓取系统的体系结构 | 第24页 |
·垂直搜索抓取策略可扩展插件 | 第24-27页 |
·垂直搜索抓取系统的分布式和可扩展性 | 第27-32页 |
·分布式特性 | 第27-28页 |
·分布式抓取系统的工作流程 | 第28-31页 |
·可扩展性 | 第31-32页 |
·本章小结 | 第32-33页 |
第3章 垂直搜索抓取系统的隐蔽网抓取 | 第33-44页 |
·隐蔽网(Hidden Web)概述 | 第33-34页 |
·隐蔽网抓取问题 | 第34-37页 |
·切入点发现 | 第34-35页 |
·查询构造 | 第35-36页 |
·查询结果消重 | 第36-37页 |
·自学习的中文地址判重方法 | 第37-43页 |
·中文地址切分 | 第38-39页 |
·地址规范度 | 第39-40页 |
·冗余信息提取 | 第40页 |
·规范表,不规范表与映射表 | 第40-41页 |
·判重算法 | 第41-43页 |
·本章小结 | 第43-44页 |
第4章 垂直搜索抓取系统的时效性 | 第44-53页 |
·搜索引擎的时效性问题 | 第44-46页 |
·传统时效性解决方法 | 第46-47页 |
·检测目标网站更新规律 | 第46页 |
·基于用户查询分布概率 | 第46-47页 |
·基于查询驱动的实时抓取 | 第47-52页 |
·TSVS基本模型 | 第47-48页 |
·系统设计 | 第48-50页 |
·用户交互模式 | 第50-52页 |
·本章小结 | 第52-53页 |
第5章 垂直搜索抓取系统的效率与性能 | 第53-64页 |
·总体的抓取模式 | 第53-55页 |
·间隔批量模式 | 第53-54页 |
·稳定持续模式 | 第54页 |
·抓取模式比较 | 第54-55页 |
·总体的更新策略 | 第55-58页 |
·整体预存更新 | 第55页 |
·及时替换式更新 | 第55-56页 |
·更新策略比较 | 第56-58页 |
·总体的抓取频率 | 第58-61页 |
·固定频率 | 第58页 |
·变化频率 | 第58-59页 |
·抓取频率比较 | 第59-60页 |
·基于查询驱动和固定频率相结合 | 第60-61页 |
·抓取系统综合比较 | 第61-63页 |
·本章小结 | 第63-64页 |
第6章 测试和实验 | 第64-68页 |
·地址判重实验 | 第64-65页 |
·规范度计算 | 第64-65页 |
·地址判重率 | 第65页 |
·时效性实验 | 第65-68页 |
第7章 结论和展望 | 第68-70页 |
·总结 | 第68页 |
·不足与展望 | 第68-70页 |
参考文献 | 第70-73页 |
致谢 | 第73-74页 |
个人简历 | 第74页 |