首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于DOM树的Deep Web实体抽取的研究与实现

摘要第1-6页
ABSTRACT第6-11页
第1章 引言第11-17页
   ·研究背景第11-12页
   ·国内外研究动态第12-14页
   ·本文研究的主要问题第14-15页
   ·本文的组织结构第15-17页
第2章 相关技术第17-23页
   ·HTML第17页
   ·XML第17-18页
   ·HTML转换技术第18-19页
     ·Tidy第18-19页
     ·NekoHTML第19页
   ·XML解析技术第19-21页
     ·DOM第19-20页
     ·XPath第20-21页
     ·DOM4J第21页
   ·本章小结第21-23页
第3章 D-EEM的体系结构第23-29页
   ·需求分析第23-25页
     ·手动实体抽取第23-24页
     ·自动实体抽取第24-25页
   ·D-EEM的层次模型第25-26页
   ·功能模块介绍第26-28页
   ·本章小结第28-29页
第4章 基于DOM树的自动实体抽取策略第29-45页
   ·网页预处理第29-32页
     ·HTML向XHTML的转换第29-30页
     ·DOM树生成第30-32页
   ·数据区域定位第32-35页
     ·数据区域的特点第33-34页
     ·基于聚集度的数据区域定位第34-35页
   ·实体区域定位第35-40页
     ·基本思想第35-36页
     ·数据区域预处理第36-37页
     ·子树匹配策略第37-38页
     ·最佳频繁子树挖掘第38-40页
   ·抽取规则生成第40-41页
   ·语义标注第41-43页
   ·本章小结第43-45页
第5章 D-EEM原型系统的设计与实现第45-59页
   ·开发环境第45页
   ·开发技术第45-48页
     ·J2EE开发平台第46页
     ·MVC设计模式第46-47页
     ·Struts框架第47-48页
   ·关键模块的实现第48-58页
     ·网页预处理模块的实现第48-50页
     ·模板手动定义模块的实现第50-51页
     ·区域自动定位模块的实现第51-54页
     ·抽取规则生成模块的实现第54-55页
     ·抽取引擎模块的实现第55-58页
   ·本章小结第58-59页
第6章 系统性能评估第59-67页
   ·测试数据集第59页
   ·执行代价第59-62页
     ·区域自动定位的时间代价第59-61页
     ·DERL与ERL策略的时间代价比较第61-62页
   ·性能评估第62-65页
     ·评价指标第62页
     ·抽取性能评估第62-65页
   ·本章小结第65-67页
第7章 结束语第67-69页
参考文献第69-73页
致谢第73页

论文共73页,点击 下载论文
上一篇:搜索引擎中网页净化与消重技术研究
下一篇:基于AJAX的中国矿业信息网站的研究与开发