首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

垂直搜索引擎的抓取技术研究

摘要第1-4页
Abstract第4-9页
第1章 绪论第9-24页
   ·课题背景及意义第9-10页
   ·垂直搜索抓取技术中目前的研究热点第10-22页
     ·垂直搜索隐蔽网研究现状第10-18页
     ·垂直搜索时效性问题研究现状第18-22页
   ·本文的工作和组织第22-24页
第2章 垂直搜索抓取系统框架第24-33页
   ·垂直搜索抓取系统的体系结构第24页
   ·垂直搜索抓取策略可扩展插件第24-27页
   ·垂直搜索抓取系统的分布式和可扩展性第27-32页
     ·分布式特性第27-28页
     ·分布式抓取系统的工作流程第28-31页
     ·可扩展性第31-32页
   ·本章小结第32-33页
第3章 垂直搜索抓取系统的隐蔽网抓取第33-44页
   ·隐蔽网(Hidden Web)概述第33-34页
   ·隐蔽网抓取问题第34-37页
     ·切入点发现第34-35页
     ·查询构造第35-36页
     ·查询结果消重第36-37页
   ·自学习的中文地址判重方法第37-43页
     ·中文地址切分第38-39页
     ·地址规范度第39-40页
     ·冗余信息提取第40页
     ·规范表,不规范表与映射表第40-41页
     ·判重算法第41-43页
   ·本章小结第43-44页
第4章 垂直搜索抓取系统的时效性第44-53页
   ·搜索引擎的时效性问题第44-46页
   ·传统时效性解决方法第46-47页
     ·检测目标网站更新规律第46页
     ·基于用户查询分布概率第46-47页
   ·基于查询驱动的实时抓取第47-52页
     ·TSVS基本模型第47-48页
     ·系统设计第48-50页
     ·用户交互模式第50-52页
   ·本章小结第52-53页
第5章 垂直搜索抓取系统的效率与性能第53-64页
   ·总体的抓取模式第53-55页
     ·间隔批量模式第53-54页
     ·稳定持续模式第54页
     ·抓取模式比较第54-55页
   ·总体的更新策略第55-58页
     ·整体预存更新第55页
     ·及时替换式更新第55-56页
     ·更新策略比较第56-58页
   ·总体的抓取频率第58-61页
     ·固定频率第58页
     ·变化频率第58-59页
     ·抓取频率比较第59-60页
     ·基于查询驱动和固定频率相结合第60-61页
   ·抓取系统综合比较第61-63页
   ·本章小结第63-64页
第6章 测试和实验第64-68页
   ·地址判重实验第64-65页
     ·规范度计算第64-65页
     ·地址判重率第65页
   ·时效性实验第65-68页
第7章 结论和展望第68-70页
   ·总结第68页
   ·不足与展望第68-70页
参考文献第70-73页
致谢第73-74页
个人简历第74页

论文共74页,点击 下载论文
上一篇:基于NAND闪存的嵌入式文件系统研究与实现
下一篇:硬件虚拟机Xen的研究和性能优化