首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于XML的Web信息抽取技术研究

摘要第1-7页
Abstract第7-10页
第1章 绪论第10-14页
   ·研究背景及意义第10页
   ·信息抽取的对象和任务第10-11页
   ·信息抽取发展趋势第11-12页
   ·研究工作的主要内容第12页
   ·论文结构安排第12-14页
第2章 理论基础第14-28页
   ·Web信息抽取第14-16页
     ·Web信息抽取技术分类第14-15页
     ·Web信息抽取原理第15页
     ·Web信息抽取存在的问题第15-16页
   ·相关基本概念第16-20页
     ·HTML第16页
     ·XML第16-18页
     ·DOM第18-20页
     ·XHTML第20页
   ·Web网页分块技术第20-25页
   ·XML行业词汇表第25-27页
   ·本章小结第27-28页
第3章 Web网页预处理第28-40页
   ·网页预处理第28-29页
   ·基于标签的清洗算法第29-35页
     ·清洗规则界定第29-33页
     ·清洗算法定义第33-35页
   ·结构化处理第35-39页
     ·HTML结构化工具第35-37页
     ·结构化处理过程第37-39页
   ·DOM树解析第39页
   ·本章小结第39-40页
第4章 基于XML的二次权重信息抽取第40-54页
   ·XTWIE的难点和目标第40页
   ·XML主数据块的抽取第40-47页
     ·主数据块的相关概念第41-42页
     ·叶子路径相似度第42-43页
     ·主数据块识别算法第43-47页
     ·初始数据记录存储第47页
   ·基于XML数据记录优化研究第47-53页
     ·行业词汇对数据记录权值影响第48-49页
     ·文字数量特征对数据记录权值影响第49-50页
     ·对数据记录进行二次识别第50-53页
   ·本章小结第53-54页
第5章 实验与效果分析第54-61页
   ·抽取系统评测标准第54页
   ·实验结果与分析第54-59页
     ·标签清洗效果分析第56-57页
     ·主数据块抽取效果分析第57-59页
     ·二次识别效果分析第59页
   ·本章小结第59-61页
结论第61-62页
参考文献第62-65页
攻读硕士学位期间发表的论文和取得的科研成果第65-66页
致谢第66-67页
摘要第67-71页
Abstract第71-75页

论文共75页,点击 下载论文
上一篇:基于SOA的工作流架构的研究
下一篇:基于机器视觉的黑片缺陷检测图像预处理技术的研究