基于关系子群发现算法的聚焦爬行技术

提要	第1-8页
第一章绪论	第8-32页
·什么是聚焦爬行	第8-13页
·网络爬虫简介	第8-10页
·聚焦爬行简介	第10-13页
·聚焦爬行技术研究现状	第13-31页
·聚焦爬行的两个研究方向	第14-15页
·第一个研究问题：超链接相关性的鉴别	第15-25页
·FishSearch算法	第18页
·SharkSearch算法	第18页
·Cho等的实验	第18-20页
·第一代聚焦爬虫	第20页
·WTMS系统	第20页
·三种主题爬行策略的比较实验	第20-21页
·智能爬行	第21-22页
·加速聚焦爬虫	第22-25页
·第二个研究问题：tunnelling难题	第25-30页
·基于Context Graph的爬行策略	第25-28页
·基于增强学习的爬行策略	第28-30页
·总结	第30-31页
·本文的组织	第31-32页
第二章背景知识介绍	第32-46页
·HTML和DOM简介	第32-36页
·HTML语言	第32-34页
·DOM模型	第34-36页
·自然语言处理技术简介	第36-39页
·自然语言处理技术	第36-38页
·语法解析技术	第38-39页
·关系机器学习	第39-43页
·子群发现技术	第43-45页
·小结	第45-46页
第三章本文技术贡献一：精确抽取链接上下文相关文本	第46-71页
·链接上下文相关文本及其作用	第46-47页
·提取链接上下文相关文本带来的技术挑战	第47-51页
·链接上下文相关文本提取新方法	第51-64页
·总体框架	第51-53页
·对网页“段落”的定位	第53-54页
·对锚文本和邻近文本的定位	第54-60页
·对相关“标题文本”的提取	第60-63页
·总体算法流程的伪码表示	第63-64页
·算法的系统实现及比较实验结果	第64-71页
·系统实现	第64-65页
·比较实验结果	第65-69页
·新方法的局限性和可能的改进	第69-71页
第四章本文技术贡献二：基于关系子群发现聚焦爬行	第71-88页
·聚焦爬行新框架	第71-75页
·关系知识表示	第72-74页
·子群发现	第74-75页
·具体算法流程	第75-82页
·探索阶段	第76页
·学习阶段	第76-80页
·利用阶段	第80-82页
·实验评估	第82-86页
·算法实现	第82-83页
·实验设定	第83-85页
·实验结果	第85-86页
·结论	第86-88页
第五章总结与展望	第88-91页
·本文的创新工作	第88-89页
·不足之处与未来的工作	第89-91页
参考文献	第91-94页
攻读博士期间发表的学术论文及其它成果	第94-95页
致谢	第95-96页
摘要	第96-98页
Abstract	第98-99页