首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于关系子群发现算法的聚焦爬行技术

提要第1-8页
第一章 绪论第8-32页
   ·什么是聚焦爬行第8-13页
     ·网络爬虫简介第8-10页
     ·聚焦爬行简介第10-13页
   ·聚焦爬行技术研究现状第13-31页
     ·聚焦爬行的两个研究方向第14-15页
     ·第一个研究问题:超链接相关性的鉴别第15-25页
       ·FishSearch算法第18页
       ·SharkSearch算法第18页
       ·Cho等的实验第18-20页
       ·第一代聚焦爬虫第20页
       ·WTMS系统第20页
       ·三种主题爬行策略的比较实验第20-21页
       ·智能爬行第21-22页
       ·加速聚焦爬虫第22-25页
     ·第二个研究问题:tunnelling难题第25-30页
       ·基于Context Graph的爬行策略第25-28页
       ·基于增强学习的爬行策略第28-30页
     ·总结第30-31页
   ·本文的组织第31-32页
第二章 背景知识介绍第32-46页
   ·HTML和DOM简介第32-36页
     ·HTML语言第32-34页
     ·DOM模型第34-36页
   ·自然语言处理技术简介第36-39页
     ·自然语言处理技术第36-38页
     ·语法解析技术第38-39页
   ·关系机器学习第39-43页
   ·子群发现技术第43-45页
   ·小结第45-46页
第三章 本文技术贡献一:精确抽取链接上下文相关文本第46-71页
   ·链接上下文相关文本及其作用第46-47页
   ·提取链接上下文相关文本带来的技术挑战第47-51页
   ·链接上下文相关文本提取新方法第51-64页
     ·总体框架第51-53页
     ·对网页“段落”的定位第53-54页
     ·对锚文本和邻近文本的定位第54-60页
     ·对相关“标题文本”的提取第60-63页
     ·总体算法流程的伪码表示第63-64页
   ·算法的系统实现及比较实验结果第64-71页
     ·系统实现第64-65页
     ·比较实验结果第65-69页
     ·新方法的局限性和可能的改进第69-71页
第四章 本文技术贡献二:基于关系子群发现聚焦爬行第71-88页
   ·聚焦爬行新框架第71-75页
     ·关系知识表示第72-74页
     ·子群发现第74-75页
   ·具体算法流程第75-82页
     ·探索阶段第76页
     ·学习阶段第76-80页
     ·利用阶段第80-82页
   ·实验评估第82-86页
     ·算法实现第82-83页
     ·实验设定第83-85页
     ·实验结果第85-86页
   ·结论第86-88页
第五章 总结与展望第88-91页
   ·本文的创新工作第88-89页
   ·不足之处与未来的工作第89-91页
参考文献第91-94页
攻读博士期间发表的学术论文及其它成果第94-95页
致谢第95-96页
摘要第96-98页
Abstract第98-99页

论文共99页,点击 下载论文
上一篇:数字图像处理中基于局部方向性的压缩和去噪算法研究
下一篇:基因识别和微阵列数据识别算法研究