首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于新型坐标树的页面分析和内容提取框架

第一章 绪论第1-16页
   ·背景、意义第8-9页
   ·国内外的研究现状第9-12页
     ·基于手工编码的方式第9-10页
     ·基于启发式规则的方式第10-11页
     ·基于机器学习的方式第11页
     ·基于树结构比较的方式第11-12页
     ·一些其他方法第12页
   ·JAVA简介第12-14页
   ·论文的主要工作第14-16页
第二章 基于坐标树的页面结构分析第16-29页
   ·HTML/XML第16-18页
   ·DOM模型的定义第18-20页
     ·DOM的定义第18页
     ·DOM的主要特点第18-19页
     ·DOM和HTML树型逻辑结构第19-20页
   ·HTML解析器设计第20-22页
   ·页面结构分析技术简介第22-24页
     ·利用HTML标记的分布规律分析页面布局第22-23页
     ·利用DOM树分析页面布局第23页
     ·利用页面视觉特征分析页面布局第23-24页
   ·基于坐标树的页面结构分析方法第24-28页
     ·计算位置坐标并生成坐标树第24-26页
     ·页面划分第26-27页
     ·Graph生成算法第27-28页
   ·本章小结第28-29页
第三章 基于页面划分的内容提取框架第29-37页
   ·主题内容提取算法第29-31页
   ·相关图片的识别算法第31-32页
   ·相关链接的识别算法第32-33页
   ·原型系统的设计与实现第33-34页
   ·实验结果分析第34-36页
   ·本章小结第36-37页
第四章 文本分类第37-49页
   ·文本分类综述第37-42页
     ·最近邻分类(Nearest Neighbor)第38页
     ·决策树(Decision Tree)第38-39页
     ·支持向量机(Support Vector Machines)第39-42页
     ·神经网络(Neural Network)第42页
   ·特征选择方法第42-44页
     ·文档频率第43页
     ·信息增益第43页
     ·互信息第43-44页
   ·基于决策支持向量机的文本分类第44-45页
   ·实验结果与分析第45-46页
   ·主题提取应用于网页分类第46-47页
     ·实验结果及结果分析第46-47页
   ·本章小结第47-49页
结论第49-50页
参考文献第50-54页
附录第54-56页
致谢第56-57页
作者攻读学位期间发表的学术论文目录第57页

论文共57页,点击 下载论文
上一篇:多弧离子镀制备纳米复合超硬膜的工艺研究
下一篇:中国中小企业海外上市研究