基于新型坐标树的页面分析和内容提取框架

第一章绪论	第1-16页
·背景、意义	第8-9页
·国内外的研究现状	第9-12页
·基于手工编码的方式	第9-10页
·基于启发式规则的方式	第10-11页
·基于机器学习的方式	第11页
·基于树结构比较的方式	第11-12页
·一些其他方法	第12页
·JAVA简介	第12-14页
·论文的主要工作	第14-16页
第二章基于坐标树的页面结构分析	第16-29页
·HTML／XML	第16-18页
·DOM模型的定义	第18-20页
·DOM的定义	第18页
·DOM的主要特点	第18-19页
·DOM和HTML树型逻辑结构	第19-20页
·HTML解析器设计	第20-22页
·页面结构分析技术简介	第22-24页
·利用HTML标记的分布规律分析页面布局	第22-23页
·利用DOM树分析页面布局	第23页
·利用页面视觉特征分析页面布局	第23-24页
·基于坐标树的页面结构分析方法	第24-28页
·计算位置坐标并生成坐标树	第24-26页
·页面划分	第26-27页
·Graph生成算法	第27-28页
·本章小结	第28-29页
第三章基于页面划分的内容提取框架	第29-37页
·主题内容提取算法	第29-31页
·相关图片的识别算法	第31-32页
·相关链接的识别算法	第32-33页
·原型系统的设计与实现	第33-34页
·实验结果分析	第34-36页
·本章小结	第36-37页
第四章文本分类	第37-49页
·文本分类综述	第37-42页
·最近邻分类(Nearest Neighbor)	第38页
·决策树(Decision Tree)	第38-39页
·支持向量机(Support Vector Machines)	第39-42页
·神经网络(Neural Network)	第42页
·特征选择方法	第42-44页
·文档频率	第43页
·信息增益	第43页
·互信息	第43-44页
·基于决策支持向量机的文本分类	第44-45页
·实验结果与分析	第45-46页
·主题提取应用于网页分类	第46-47页
·实验结果及结果分析	第46-47页
·本章小结	第47-49页
结论	第49-50页
参考文献	第50-54页
附录	第54-56页
致谢	第56-57页
作者攻读学位期间发表的学术论文目录	第57页