首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于DOM的Web信息自动抽取技术的研究

摘要第1-8页
Abstract第8-12页
1 引言第12-17页
   ·研究背景和意义第12-13页
   ·WEB 信息抽取技术第13-14页
     ·概述第13-14页
     ·面临的问题第14页
   ·本文研究内容及创新点第14-15页
   ·本论文的组织第15-17页
2 决策树模型第17-25页
   ·决策树简介第17-21页
     ·决策树的学习算法第18-19页
     ·混杂度函数第19-20页
     ·其他一些问题第20-21页
   ·评估方法第21-23页
   ·WEKA 简介第23-24页
   ·小结第24-25页
3 查询接口分类第25-36页
   ·DOM 技术第25-29页
     ·超文本标记语言 HTML第25-27页
     ·文档对象模型 DOM第27-28页
     ·HtmlParser 包第28-29页
   ·查询接口自动判定技术第29-35页
     ·查询接口判定方法第30页
     ·样例集的自动构建第30-32页
     ·决策树模型训练与分类第32-33页
     ·实验结果第33-35页
   ·小结第35-36页
4 列表页面的自动抽取技术第36-51页
   ·问题描述第36-37页
   ·树相似度算法第37-42页
     ·树编辑距离第37-40页
     ·自顶向下约束的树编辑距离第40-41页
     ·DOM 树的最大匹配第41-42页
   ·列表页面自动抽取技术第42-43页
     ·基于 DOM 的列表页面自动抽取算法第42-43页
   ·基于熵的信息过滤算法第43-48页
     ·熵第43-44页
     ·K-均值聚类第44-46页
     ·基于熵的过滤算法第46-47页
     ·实验结果第47-48页
   ·基于规则的树对齐算法第48-50页
     ·部分树对齐算法第49页
     ·对齐规则第49-50页
   ·小结第50-51页
5 列表页面自动抽取系统第51-56页
   ·系统简介第51-55页
     ·查询接口自动填充跳转第52-53页
     ·列表页面抽取及过滤第53-55页
     ·分页数据的连续自动抽取第55页
   ·小结第55-56页
6 总结与展望第56-58页
   ·总结第56页
   ·展望第56-58页
参考文献第58-62页
致谢第62-63页
个人简历第63页
发表的论文第63页
科研成果第63页

论文共63页,点击 下载论文
上一篇:基于WEB高校资料信息系统的设计
下一篇:两类时滞静态递归神经网络的指数稳定性分析