首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于页面分块的网页内容提取的研究与实现

摘要第1-6页
Abstract第6-11页
第1章 绪论第11-18页
   ·课题研究背景与意义第11-13页
   ·国内外研究现状第13-16页
     ·基于人工编码的方法第13页
     ·基于启发式规则的方法第13-15页
     ·基于机器学习的方法第15页
     ·基于DOM树结构的方法第15-16页
   ·论文研究的主要内容第16页
   ·论文的组织结构第16-18页
第2章 理论基础和相关技术第18-25页
   ·HTML基础第18-21页
     ·HTML简介第18-19页
     ·HTML DOM树第19-21页
   ·页面结构分析及内容提取技术第21-24页
     ·页面的结构特点及其表示第21-22页
     ·常见的页面结构分析第22-24页
       ·基于HTML标签分布规律的页面结构分析第22-23页
       ·基于DOM树的页面结构分析第23页
       ·基于视觉特征的页面结构分析第23-24页
       ·目前页面结构分析技术的不足第24页
   ·本章小结第24-25页
第3章 主题型页面识别第25-32页
   ·两种类型页面的特点第26页
     ·主题型页面的特点第26页
     ·链接型页面的特点第26页
   ·算法设计第26-30页
     ·算法描述第26-27页
     ·阈值设定第27页
     ·分类器第27-30页
       ·分类器简介第27-28页
       ·支持向量机第28-30页
   ·实验结果及分析第30-31页
   ·本章小结第31-32页
第4章 基于多线索的网页分块算法第32-40页
   ·可利用的线索第32-34页
   ·网页标准化第34页
   ·构造标签树第34页
   ·网页分块第34-37页
   ·实验结果及分析第37-39页
   ·本章小结第39-40页
第5章 基于页面分块的内容提取第40-56页
   ·页面内容块的主要特征第40-41页
   ·主题内容提取第41-49页
     ·利用布局特征识别主题内容块第41-45页
       ·可利用的布局特征第41-43页
       ·布局特征的量化第43-45页
     ·利用文字特征识别主题内容块第45-47页
       ·算法思想第45-46页
       ·文本相似度的计算第46-47页
     ·利用组合特征识别主题内容块第47页
     ·主题内容块识别算法有效性验证第47-49页
   ·主题相关内容提取第49-55页
     ·相关链接提取第49-53页
       ·相关链接的特点第49-50页
       ·相关链接抽取规则第50-51页
       ·实验结果及分析第51-53页
     ·相关图片的提取第53-55页
       ·相关图片的特点第54页
       ·相关图片抽取规则第54-55页
       ·实验结果及分析第55页
   ·本章小节第55-56页
第6章 总结与展望第56-57页
参考文献第57-61页
致谢第61-62页
攻读硕士研究生期间发表的论文第62页

论文共62页,点击 下载论文
上一篇:基于Web的主动服务构件组装的研究
下一篇:基于学习对象的网络学习内容管理方法的研究