基于URL规则的聚焦爬虫及其应用

摘要	第1-4页
Abstract	第4-9页
第1章绪论	第9-19页
·问题的提出	第9-10页
·研究现状	第10-17页
·按照重要性对URL进行排序	第10-11页
·主题相邻性	第11-12页
·主题孤岛问题	第12-13页
·隧道技术	第13页
·CFC	第13-14页
·决策树	第14-15页
·类间链接规律	第15-16页
·增强学习	第16-17页
·分析总结	第17页
·本文的主要工作和组织结构	第17-18页
·本章小结	第18-19页
第2章垂直搜索引擎与Nutch概述	第19-30页
·垂直搜索引擎	第19-24页
·垂直搜索引擎架构	第19页
·聚焦爬虫	第19-20页
·WEB图生成器	第20-21页
·链接分析	第21页
·页面分类器	第21-22页
·信息抽取器	第22页
·索引构建器	第22-23页
·搜索	第23页
·网页评分	第23页
·缓存	第23-24页
·开源搜索引擎Nutch	第24-29页
·Lucene	第25-26页
·Hadoop	第26-27页
·Nutch架构	第27-29页
·本章小结	第29-30页
第3章基于URL规则的聚焦爬虫	第30-35页
·用正则表达式概括同一网站内的主题相关页面	第30页
·解决主题孤岛问题	第30-31页
·URL正则表达式学习器	第31页
·一个基于URL规则的聚焦爬虫	第31-34页
·实验爬虫阶段	第32-33页
·聚焦爬虫阶段	第33-34页
·本章小结	第34-35页
第4章基于URL规则的聚焦爬虫的实现	第35-49页
·URL正则表达式学习器的实现	第35-41页
·URL数据结构	第35-36页
·URL距离的度量	第36-37页
·划分	第37-38页
·聚合	第38-39页
·抽取	第39-41页
·实验爬虫阶段的实现	第41-46页
·站点过滤器	第41-42页
·URL数量过滤器	第42-43页
·实验爬虫	第43-46页
·聚焦爬虫阶段的实现	第46-48页
·URL正则表达式过滤器	第46-47页
·聚焦爬虫	第47-48页
·本章小结	第48-49页
第5章基于URL规则的聚焦爬虫的应用与分析	第49-67页
·在抓取指定网站场景下的应用	第49-62页
·实验环境设置	第50-53页
·实验及其分析	第53-62页
·在抓取整个互联网上的主题相关页面场景下的应用	第62-66页
·寻找主题相关站点	第63-66页
·本章小结	第66-67页
第6章总结与展望	第67-69页
·本文工作总结	第67页
·未来工作展望	第67-69页
参考文献	第69-72页
致谢	第72页