基于GHMM的Web文本信息抽取技术研究与系统设计
摘要 | 第1-4页 |
Abstract | 第4-9页 |
第一章 绪论 | 第9-13页 |
·课题背景 | 第9页 |
·Web 信息抽取技术的发展与现状 | 第9-10页 |
·论文的研究内容 | 第10-11页 |
·论文的组织结构 | 第11-13页 |
第二章 Web 信息抽取技术 | 第13-21页 |
·信息抽取技术综述 | 第13-14页 |
·信息抽取技术概念 | 第13-14页 |
·信息抽取的分类 | 第14页 |
·信息抽取的常用方法 | 第14-18页 |
·基于自然语言处理方式的信息抽取 | 第15页 |
·包装器归纳方式的信息抽取 | 第15-16页 |
·基于ontology 方式的信息抽取 | 第16页 |
·基于HTML 结构的信息抽取 | 第16-17页 |
·基于Web 查询的信息抽取 | 第17-18页 |
·Web 信息抽取存在的问题 | 第18页 |
·Web 信息抽取体系结构 | 第18-19页 |
·小结 | 第19-21页 |
第三章Web 页面分析 | 第21-29页 |
·HTML 格式分析 | 第21-23页 |
·Web 页面的特点 | 第23-25页 |
·网页的内容块分析 | 第23页 |
·Web 页面多重属性的分析 | 第23-24页 |
·Web 版面结构的发现算法 | 第24-25页 |
·网页的去重处理 | 第25-28页 |
·网页的特征表示 | 第25页 |
·一种改进的权重计算方法 | 第25-26页 |
·网页的特征提取 | 第26-27页 |
·相似距离计算 | 第27-28页 |
·小结 | 第28-29页 |
第四章 改进的广义隐马尔可夫模型 | 第29-39页 |
·HMM 模型描述 | 第29-30页 |
·模型的定义 | 第29-30页 |
·三个基本问题的提出 | 第30-35页 |
·解码问题 | 第31-33页 |
·学习问题 | 第33-35页 |
·HMM 命名实体中的应用 | 第35页 |
·广义隐马尔可夫模型 | 第35-38页 |
·GHMM 的定义 | 第36页 |
·GHMM 模型的改进算法 | 第36-38页 |
·小结 | 第38-39页 |
第五章 基于改进的 GHMM 的信息抽取 | 第39-49页 |
·介绍 | 第39-41页 |
·命名实体识别的定义 | 第39-41页 |
·命名实体识别的难点 | 第41页 |
·命名实体识别的流程 | 第41-42页 |
·预处理阶段 | 第42-43页 |
·角色的标注 | 第43-47页 |
·角色表的建立 | 第43-45页 |
·角色的标注算法 | 第45-46页 |
·改进的角色自动抽取 | 第46-47页 |
·基于 GHMM 信息提取的步骤 | 第47-48页 |
·小结 | 第48-49页 |
第六章 系统的设计与实现 | 第49-67页 |
·Web 信息抽取系统 | 第49-52页 |
·系统设计目标 | 第49-50页 |
·WebIE 系统的框架 | 第50-51页 |
·系统的功能模块 | 第51-52页 |
·主要模块的实现 | 第52页 |
·网页预处理流程 | 第52-56页 |
·检索与查询的实现 | 第54页 |
·获取招聘网页信息 | 第54页 |
·Web 招聘信息网页进行清理、过滤 | 第54-55页 |
·分词和过滤 | 第55-56页 |
·GHMM 的实体识别代码实现 | 第56-58页 |
·机构名称识别训练算法 | 第57页 |
·机构名称识别算法 | 第57-58页 |
·系统的数据库设计 | 第58-61页 |
·数据库的系统结构 | 第58页 |
·数据库的实现 | 第58-61页 |
·Web 信息抽取系统的实现 | 第61-63页 |
·Web 页面的概述 | 第61-62页 |
·系统运行效果图 | 第62-63页 |
·信息抽取系统的评估标准 | 第63页 |
·实验结果 | 第63-66页 |
·小结 | 第66-67页 |
第七章 系统的总结与展望 | 第67-70页 |
·论文的特色之处 | 第67页 |
·系统存在的问题与改进 | 第67-68页 |
·未来技术发展趋势 | 第68-70页 |
致谢 | 第70-71页 |
参考文献 | 第71-75页 |
在读期间发表的学术论文 | 第75-76页 |