首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于GHMM的Web文本信息抽取技术研究与系统设计

摘要第1-4页
Abstract第4-9页
第一章 绪论第9-13页
   ·课题背景第9页
   ·Web 信息抽取技术的发展与现状第9-10页
   ·论文的研究内容第10-11页
   ·论文的组织结构第11-13页
第二章 Web 信息抽取技术第13-21页
   ·信息抽取技术综述第13-14页
     ·信息抽取技术概念第13-14页
     ·信息抽取的分类第14页
   ·信息抽取的常用方法第14-18页
     ·基于自然语言处理方式的信息抽取第15页
     ·包装器归纳方式的信息抽取第15-16页
     ·基于ontology 方式的信息抽取第16页
     ·基于HTML 结构的信息抽取第16-17页
     ·基于Web 查询的信息抽取第17-18页
   ·Web 信息抽取存在的问题第18页
   ·Web 信息抽取体系结构第18-19页
   ·小结第19-21页
第三章Web 页面分析第21-29页
   ·HTML 格式分析第21-23页
   ·Web 页面的特点第23-25页
     ·网页的内容块分析第23页
     ·Web 页面多重属性的分析第23-24页
     ·Web 版面结构的发现算法第24-25页
   ·网页的去重处理第25-28页
     ·网页的特征表示第25页
     ·一种改进的权重计算方法第25-26页
     ·网页的特征提取第26-27页
     ·相似距离计算第27-28页
   ·小结第28-29页
第四章 改进的广义隐马尔可夫模型第29-39页
   ·HMM 模型描述第29-30页
     ·模型的定义第29-30页
   ·三个基本问题的提出第30-35页
     ·解码问题第31-33页
     ·学习问题第33-35页
   ·HMM 命名实体中的应用第35页
   ·广义隐马尔可夫模型第35-38页
     ·GHMM 的定义第36页
     ·GHMM 模型的改进算法第36-38页
   ·小结第38-39页
第五章 基于改进的 GHMM 的信息抽取第39-49页
   ·介绍第39-41页
     ·命名实体识别的定义第39-41页
     ·命名实体识别的难点第41页
   ·命名实体识别的流程第41-42页
   ·预处理阶段第42-43页
   ·角色的标注第43-47页
     ·角色表的建立第43-45页
     ·角色的标注算法第45-46页
     ·改进的角色自动抽取第46-47页
   ·基于 GHMM 信息提取的步骤第47-48页
   ·小结第48-49页
第六章 系统的设计与实现第49-67页
   ·Web 信息抽取系统第49-52页
     ·系统设计目标第49-50页
     ·WebIE 系统的框架第50-51页
     ·系统的功能模块第51-52页
   ·主要模块的实现第52页
   ·网页预处理流程第52-56页
     ·检索与查询的实现第54页
     ·获取招聘网页信息第54页
     ·Web 招聘信息网页进行清理、过滤第54-55页
     ·分词和过滤第55-56页
   ·GHMM 的实体识别代码实现第56-58页
     ·机构名称识别训练算法第57页
     ·机构名称识别算法第57-58页
   ·系统的数据库设计第58-61页
     ·数据库的系统结构第58页
     ·数据库的实现第58-61页
   ·Web 信息抽取系统的实现第61-63页
     ·Web 页面的概述第61-62页
     ·系统运行效果图第62-63页
   ·信息抽取系统的评估标准第63页
   ·实验结果第63-66页
   ·小结第66-67页
第七章 系统的总结与展望第67-70页
   ·论文的特色之处第67页
   ·系统存在的问题与改进第67-68页
   ·未来技术发展趋势第68-70页
致谢第70-71页
参考文献第71-75页
在读期间发表的学术论文第75-76页

论文共76页,点击 下载论文
上一篇:基于视频流的运动人体行为识别技术研究
下一篇:基于内容的音频检索的关键技术研究