基于页面分块的网页内容提取的研究与实现

摘要	第1-6页
Abstract	第6-11页
第1章绪论	第11-18页
·课题研究背景与意义	第11-13页
·国内外研究现状	第13-16页
·基于人工编码的方法	第13页
·基于启发式规则的方法	第13-15页
·基于机器学习的方法	第15页
·基于DOM树结构的方法	第15-16页
·论文研究的主要内容	第16页
·论文的组织结构	第16-18页
第2章理论基础和相关技术	第18-25页
·HTML基础	第18-21页
·HTML简介	第18-19页
·HTML DOM树	第19-21页
·页面结构分析及内容提取技术	第21-24页
·页面的结构特点及其表示	第21-22页
·常见的页面结构分析	第22-24页
·基于HTML标签分布规律的页面结构分析	第22-23页
·基于DOM树的页面结构分析	第23页
·基于视觉特征的页面结构分析	第23-24页
·目前页面结构分析技术的不足	第24页
·本章小结	第24-25页
第3章主题型页面识别	第25-32页
·两种类型页面的特点	第26页
·主题型页面的特点	第26页
·链接型页面的特点	第26页
·算法设计	第26-30页
·算法描述	第26-27页
·阈值设定	第27页
·分类器	第27-30页
·分类器简介	第27-28页
·支持向量机	第28-30页
·实验结果及分析	第30-31页
·本章小结	第31-32页
第4章基于多线索的网页分块算法	第32-40页
·可利用的线索	第32-34页
·网页标准化	第34页
·构造标签树	第34页
·网页分块	第34-37页
·实验结果及分析	第37-39页
·本章小结	第39-40页
第5章基于页面分块的内容提取	第40-56页
·页面内容块的主要特征	第40-41页
·主题内容提取	第41-49页
·利用布局特征识别主题内容块	第41-45页
·可利用的布局特征	第41-43页
·布局特征的量化	第43-45页
·利用文字特征识别主题内容块	第45-47页
·算法思想	第45-46页
·文本相似度的计算	第46-47页
·利用组合特征识别主题内容块	第47页
·主题内容块识别算法有效性验证	第47-49页
·主题相关内容提取	第49-55页
·相关链接提取	第49-53页
·相关链接的特点	第49-50页
·相关链接抽取规则	第50-51页
·实验结果及分析	第51-53页
·相关图片的提取	第53-55页
·相关图片的特点	第54页
·相关图片抽取规则	第54-55页
·实验结果及分析	第55页
·本章小节	第55-56页
第6章总结与展望	第56-57页
参考文献	第57-61页
致谢	第61-62页
攻读硕士研究生期间发表的论文	第62页