首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于多特征的Web页面分块算法MFPS的研究与实现

摘要第1-6页
ABSTRACT第6-10页
第一章 绪论第10-14页
   ·研究背景第10-11页
   ·研究目标第11-12页
   ·本文工作第12-14页
第二章 研究基础第14-22页
   ·Web信息抽取技术第14-16页
     ·Web信息抽取第14页
     ·Web信息抽取技术的分类第14-16页
   ·Web页面特性第16-19页
     ·信息聚合特性第16-17页
     ·信息复杂性第17页
     ·半结构化特性第17-18页
     ·多样性与非规范性第18页
     ·布局方式的灵活性第18-19页
   ·Web页面分块技术第19-22页
     ·HTML标签分析法第19页
     ·DOM树分析法第19-20页
     ·其他方法第20-21页
     ·Web页面分块技术的应用第21-22页
第三章 基于多特征的WEB页面分块算法第22-36页
   ·Web页面特征分析第22-29页
     ·布局特征分析第22-24页
     ·显示特征分析第24-26页
     ·语义特征分析第26-28页
     ·文档结构特征分析第28-29页
   ·基于多特征的语义块模型第29-32页
   ·基于语义块模型的MFPS分块算法第32-36页
     ·算法思想第32页
     ·MFPS分块过程第32-36页
第四章 MFPS分块算法的实现第36-56页
   ·相似块的识别方法第36-38页
   ·结点序列的合并方法第38-44页
     ·单行类型的合并第38-39页
     ·多行类型的合并第39-41页
     ·多块类型的合并第41-43页
     ·行块交替类型的合并第43-44页
   ·分割类型的识别方法第44-45页
   ·语义类型的识别方法第45-50页
     ·文本类型的识别第46-47页
     ·图片类型的识别第47页
     ·文本链接类型的识别第47-48页
     ·图片链接类型的识别第48-49页
     ·表单类型的识别第49-50页
     ·普通类型的识别第50页
   ·多特征信息的识别方法第50-51页
   ·MFPS分块算法的基本实现第51-53页
   ·性能分析第53-56页
第五章 基于MFPS分块算法的页面类型识别与信息属性的抽取第56-74页
   ·面向主题的块的重要度分析第56-66页
     ·面向主题的块的重要度第56-58页
     ·分隔条检测第58-63页
     ·块的重要度的计算算法第63-66页
   ·新闻页面识别与信息属性的抽取第66-70页
     ·新闻页面识别算法第67-68页
     ·信息属性的抽取第68页
     ·实验结果第68-70页
   ·导航页面识别与信息属性的抽取第70-74页
     ·导航页面识别算法第70-71页
     ·信息属性的抽取第71-72页
     ·实验结果第72-74页
第六章 结论第74-76页
参考文献第76-80页
致谢第80页

论文共80页,点击 下载论文
上一篇:BCSEP中异常处理机制的研究与实现
下一篇:基于缓存策略的嵌入式浏览器解析器的实现