首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于EM算法和DOM树的WEB信息抽取的研究

摘要第1-6页
ABSTRACT第6-10页
第1章 绪论第10-15页
   ·论文的研究背景及研究价值第10-11页
     ·论文的背景介绍第10-11页
     ·论文的研究价值第11页
   ·国内外研究现状第11-13页
     ·国外研究现状第11-12页
     ·国内研究现状第12-13页
   ·WEB信息抽取技术的发展趋势和目标第13页
   ·本文的主要研究内容第13-14页
   ·本文的章节安排第14-15页
第2章 信息抽取相关技术第15-34页
   ·信息抽取第15-17页
     ·信息抽取的概念第15-16页
     ·信息抽取分类第16-17页
   ·DOM树第17-20页
     ·DOM树概念第17-18页
     ·DOM树结构第18-19页
     ·解析XML文档方法比较第19-20页
   ·网页数据处理及相似度介绍第20-25页
     ·网络爬虫第20-21页
     ·HTML Parser技术第21-24页
     ·网页相似度第24-25页
   ·文本分类相关介绍第25-27页
     ·文本分类的过程第25-26页
     ·文本分词第26页
     ·文本表示第26-27页
     ·特征选择第27页
   ·EM算法的相关理论第27-33页
     ·贝叶斯分类第28-31页
     ·基于GMM模型的EM算法基本思想第31-33页
   ·本章小结第33-34页
第3章 基于EM算法和DOM树的WEB信息抽取算法第34-51页
   ·基于DOM树的子树最优匹配算法第34-36页
     ·相似度定义第34-35页
     ·计算相似度步骤第35-36页
   ·基于DOM树的中心节点和文本长度特征算法第36-38页
   ·抽取文本分类的设计第38-44页
     ·改进的TF-IDF第39-40页
     ·文档向量模型化第40-41页
     ·半监督式EM重构训练集算法第41-44页
   ·各算法验证第44-50页
     ·网页相似度计算第44-46页
     ·基于DOM树的中心节点和文本长度特征算法结果分析第46-48页
     ·半监督式EM重构训练集算法验证第48-50页
   ·本章小节第50-51页
第4章 基于EM算法和DOM树的WEB信息抽取解决方案第51-63页
   ·解决方案第51-53页
     ·需求分析第51-52页
     ·设计思路第52-53页
   ·系统总体设计第53-55页
     ·模块设计第53-55页
     ·数据库设计第55页
   ·系统模块详细设计和实现第55-61页
     ·页面优化模块第56-58页
     ·网页分类及规则学习模块第58-60页
     ·文本分类模块第60-61页
   ·系统结果验第61-62页
   ·本章小结第62-63页
第5章 总结和展望第63-65页
   ·论文总结第63-64页
   ·论文展望第64-65页
参考文献第65-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:语义Web粗糙模糊本体支持的知识推理研究
下一篇:软件项目人力资源配置辅助支持系统的研究