提要 | 第1-8页 |
第一章 绪论 | 第8-32页 |
·什么是聚焦爬行 | 第8-13页 |
·网络爬虫简介 | 第8-10页 |
·聚焦爬行简介 | 第10-13页 |
·聚焦爬行技术研究现状 | 第13-31页 |
·聚焦爬行的两个研究方向 | 第14-15页 |
·第一个研究问题:超链接相关性的鉴别 | 第15-25页 |
·FishSearch算法 | 第18页 |
·SharkSearch算法 | 第18页 |
·Cho等的实验 | 第18-20页 |
·第一代聚焦爬虫 | 第20页 |
·WTMS系统 | 第20页 |
·三种主题爬行策略的比较实验 | 第20-21页 |
·智能爬行 | 第21-22页 |
·加速聚焦爬虫 | 第22-25页 |
·第二个研究问题:tunnelling难题 | 第25-30页 |
·基于Context Graph的爬行策略 | 第25-28页 |
·基于增强学习的爬行策略 | 第28-30页 |
·总结 | 第30-31页 |
·本文的组织 | 第31-32页 |
第二章 背景知识介绍 | 第32-46页 |
·HTML和DOM简介 | 第32-36页 |
·HTML语言 | 第32-34页 |
·DOM模型 | 第34-36页 |
·自然语言处理技术简介 | 第36-39页 |
·自然语言处理技术 | 第36-38页 |
·语法解析技术 | 第38-39页 |
·关系机器学习 | 第39-43页 |
·子群发现技术 | 第43-45页 |
·小结 | 第45-46页 |
第三章 本文技术贡献一:精确抽取链接上下文相关文本 | 第46-71页 |
·链接上下文相关文本及其作用 | 第46-47页 |
·提取链接上下文相关文本带来的技术挑战 | 第47-51页 |
·链接上下文相关文本提取新方法 | 第51-64页 |
·总体框架 | 第51-53页 |
·对网页“段落”的定位 | 第53-54页 |
·对锚文本和邻近文本的定位 | 第54-60页 |
·对相关“标题文本”的提取 | 第60-63页 |
·总体算法流程的伪码表示 | 第63-64页 |
·算法的系统实现及比较实验结果 | 第64-71页 |
·系统实现 | 第64-65页 |
·比较实验结果 | 第65-69页 |
·新方法的局限性和可能的改进 | 第69-71页 |
第四章 本文技术贡献二:基于关系子群发现聚焦爬行 | 第71-88页 |
·聚焦爬行新框架 | 第71-75页 |
·关系知识表示 | 第72-74页 |
·子群发现 | 第74-75页 |
·具体算法流程 | 第75-82页 |
·探索阶段 | 第76页 |
·学习阶段 | 第76-80页 |
·利用阶段 | 第80-82页 |
·实验评估 | 第82-86页 |
·算法实现 | 第82-83页 |
·实验设定 | 第83-85页 |
·实验结果 | 第85-86页 |
·结论 | 第86-88页 |
第五章 总结与展望 | 第88-91页 |
·本文的创新工作 | 第88-89页 |
·不足之处与未来的工作 | 第89-91页 |
参考文献 | 第91-94页 |
攻读博士期间发表的学术论文及其它成果 | 第94-95页 |
致谢 | 第95-96页 |
摘要 | 第96-98页 |
Abstract | 第98-99页 |