首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

Web页面正文信息提取算法

摘要第1-5页
Abstract第5-7页
目录第7-9页
第1章 绪论第9-18页
   ·选题背景及意义第9-10页
   ·研究现状第10-16页
     ·基于统计学习的信息提取第10-11页
     ·基于模板的信息提取第11-12页
     ·基于DOM的信息提取第12-13页
     ·基于视觉信息的信息提取第13-15页
     ·抽取方法对比第15-16页
   ·研究内容第16-17页
   ·论文结构第17-18页
第2章 相关知识和理论第18-27页
   ·数据挖掘第18-20页
     ·数据挖掘的相关技术第19页
     ·Web数据挖掘的概述第19-20页
   ·HTML的概述第20-23页
     ·HTML的发展第20-21页
     ·HTML的语言特点第21页
     ·HTML的编写规范第21-23页
   ·DOM的概述第23-26页
     ·DOM的节点第23-24页
     ·DOM的接口第24-26页
   ·本章小结第26-27页
第3章 基于Block-DOM的信息提取算法第27-34页
   ·相关定义第27页
   ·算法设计与描述第27-32页
     ·清洗第28-29页
     ·解析第29-30页
     ·判别第30-31页
     ·分块第31页
     ·净化第31页
     ·改进的提取算法第31-32页
   ·实验与结果第32-33页
   ·本章小结第33-34页
第4章 基于块和标签用途的信息提取算法第34-41页
   ·相关定义第34页
   ·系统设计和描述第34-38页
     ·解析模块(Html parser)第35页
     ·分块模块(Block device)第35-36页
     ·文本提取模块(Text extractor)第36-38页
     ·噪音词过滤模块(Noise eliminator)第38页
   ·实验与结果第38-40页
   ·本章小结第40-41页
第5章 总结与展望第41-42页
参考文献第42-44页
作者攻读学位期间发表的论文第44-45页
致谢第45-46页

论文共46页,点击 下载论文
上一篇:代价敏感贝叶斯分类方法改良
下一篇:正方软件创业历程研究