| 提要 | 第1-8页 |
| 第一章 绪论 | 第8-32页 |
| ·什么是聚焦爬行 | 第8-13页 |
| ·网络爬虫简介 | 第8-10页 |
| ·聚焦爬行简介 | 第10-13页 |
| ·聚焦爬行技术研究现状 | 第13-31页 |
| ·聚焦爬行的两个研究方向 | 第14-15页 |
| ·第一个研究问题:超链接相关性的鉴别 | 第15-25页 |
| ·FishSearch算法 | 第18页 |
| ·SharkSearch算法 | 第18页 |
| ·Cho等的实验 | 第18-20页 |
| ·第一代聚焦爬虫 | 第20页 |
| ·WTMS系统 | 第20页 |
| ·三种主题爬行策略的比较实验 | 第20-21页 |
| ·智能爬行 | 第21-22页 |
| ·加速聚焦爬虫 | 第22-25页 |
| ·第二个研究问题:tunnelling难题 | 第25-30页 |
| ·基于Context Graph的爬行策略 | 第25-28页 |
| ·基于增强学习的爬行策略 | 第28-30页 |
| ·总结 | 第30-31页 |
| ·本文的组织 | 第31-32页 |
| 第二章 背景知识介绍 | 第32-46页 |
| ·HTML和DOM简介 | 第32-36页 |
| ·HTML语言 | 第32-34页 |
| ·DOM模型 | 第34-36页 |
| ·自然语言处理技术简介 | 第36-39页 |
| ·自然语言处理技术 | 第36-38页 |
| ·语法解析技术 | 第38-39页 |
| ·关系机器学习 | 第39-43页 |
| ·子群发现技术 | 第43-45页 |
| ·小结 | 第45-46页 |
| 第三章 本文技术贡献一:精确抽取链接上下文相关文本 | 第46-71页 |
| ·链接上下文相关文本及其作用 | 第46-47页 |
| ·提取链接上下文相关文本带来的技术挑战 | 第47-51页 |
| ·链接上下文相关文本提取新方法 | 第51-64页 |
| ·总体框架 | 第51-53页 |
| ·对网页“段落”的定位 | 第53-54页 |
| ·对锚文本和邻近文本的定位 | 第54-60页 |
| ·对相关“标题文本”的提取 | 第60-63页 |
| ·总体算法流程的伪码表示 | 第63-64页 |
| ·算法的系统实现及比较实验结果 | 第64-71页 |
| ·系统实现 | 第64-65页 |
| ·比较实验结果 | 第65-69页 |
| ·新方法的局限性和可能的改进 | 第69-71页 |
| 第四章 本文技术贡献二:基于关系子群发现聚焦爬行 | 第71-88页 |
| ·聚焦爬行新框架 | 第71-75页 |
| ·关系知识表示 | 第72-74页 |
| ·子群发现 | 第74-75页 |
| ·具体算法流程 | 第75-82页 |
| ·探索阶段 | 第76页 |
| ·学习阶段 | 第76-80页 |
| ·利用阶段 | 第80-82页 |
| ·实验评估 | 第82-86页 |
| ·算法实现 | 第82-83页 |
| ·实验设定 | 第83-85页 |
| ·实验结果 | 第85-86页 |
| ·结论 | 第86-88页 |
| 第五章 总结与展望 | 第88-91页 |
| ·本文的创新工作 | 第88-89页 |
| ·不足之处与未来的工作 | 第89-91页 |
| 参考文献 | 第91-94页 |
| 攻读博士期间发表的学术论文及其它成果 | 第94-95页 |
| 致谢 | 第95-96页 |
| 摘要 | 第96-98页 |
| Abstract | 第98-99页 |