基于多特征的Web页面分块算法MFPS的研究与实现

摘要	第1-6页
ABSTRACT	第6-10页
第一章绪论	第10-14页
·研究背景	第10-11页
·研究目标	第11-12页
·本文工作	第12-14页
第二章研究基础	第14-22页
·Web信息抽取技术	第14-16页
·Web信息抽取	第14页
·Web信息抽取技术的分类	第14-16页
·Web页面特性	第16-19页
·信息聚合特性	第16-17页
·信息复杂性	第17页
·半结构化特性	第17-18页
·多样性与非规范性	第18页
·布局方式的灵活性	第18-19页
·Web页面分块技术	第19-22页
·HTML标签分析法	第19页
·DOM树分析法	第19-20页
·其他方法	第20-21页
·Web页面分块技术的应用	第21-22页
第三章基于多特征的WEB页面分块算法	第22-36页
·Web页面特征分析	第22-29页
·布局特征分析	第22-24页
·显示特征分析	第24-26页
·语义特征分析	第26-28页
·文档结构特征分析	第28-29页
·基于多特征的语义块模型	第29-32页
·基于语义块模型的MFPS分块算法	第32-36页
·算法思想	第32页
·MFPS分块过程	第32-36页
第四章 MFPS分块算法的实现	第36-56页
·相似块的识别方法	第36-38页
·结点序列的合并方法	第38-44页
·单行类型的合并	第38-39页
·多行类型的合并	第39-41页
·多块类型的合并	第41-43页
·行块交替类型的合并	第43-44页
·分割类型的识别方法	第44-45页
·语义类型的识别方法	第45-50页
·文本类型的识别	第46-47页
·图片类型的识别	第47页
·文本链接类型的识别	第47-48页
·图片链接类型的识别	第48-49页
·表单类型的识别	第49-50页
·普通类型的识别	第50页
·多特征信息的识别方法	第50-51页
·MFPS分块算法的基本实现	第51-53页
·性能分析	第53-56页
第五章基于MFPS分块算法的页面类型识别与信息属性的抽取	第56-74页
·面向主题的块的重要度分析	第56-66页
·面向主题的块的重要度	第56-58页
·分隔条检测	第58-63页
·块的重要度的计算算法	第63-66页
·新闻页面识别与信息属性的抽取	第66-70页
·新闻页面识别算法	第67-68页
·信息属性的抽取	第68页
·实验结果	第68-70页
·导航页面识别与信息属性的抽取	第70-74页
·导航页面识别算法	第70-71页
·信息属性的抽取	第71-72页
·实验结果	第72-74页
第六章结论	第74-76页
参考文献	第76-80页
致谢	第80页