基于Web的大规模中文人物信息提取研究
摘要 | 第1-7页 |
Abstract | 第7-11页 |
第1章 绪论 | 第11-15页 |
·项目背景 | 第11页 |
·目的和意义 | 第11页 |
·研究现状分析 | 第11-13页 |
·本文主要研究内容 | 第13-15页 |
第2章 人物网页数据采集 | 第15-22页 |
·引言 | 第15页 |
·爬虫概述 | 第15-16页 |
·HttpClient介绍 | 第16页 |
·网页数据下载 | 第16-21页 |
·网页数据普通方式下载 | 第16-17页 |
·网页数据代理方式下载 | 第17-19页 |
·动态网页数据下载 | 第19-21页 |
·实验结果 | 第21页 |
·本章小结 | 第21-22页 |
第3章 基于DOM的网页正文信息提取 | 第22-28页 |
·引言 | 第22页 |
·DOM简介 | 第22-24页 |
·Html解析器 | 第24页 |
·基于DOM的正文抽取方法 | 第24-25页 |
·原理分析 | 第24-25页 |
·算法过程描述 | 第25页 |
·实验结果 | 第25-27页 |
·本章小结 | 第27-28页 |
第4章 网页正文的分词处理 | 第28-36页 |
·引言 | 第28-29页 |
·分词系统介绍 | 第29页 |
·组织机构名识别 | 第29-33页 |
·机构名的组成结构 | 第29-30页 |
·机构名构成词的词频统计 | 第30页 |
·词语频数统计排序 | 第30页 |
·机构后缀词整理 | 第30-31页 |
·机构名词典的建立 | 第31页 |
·机构词词频的计算 | 第31-32页 |
·机构名识别方法 | 第32页 |
·算法描述 | 第32-33页 |
·实验结果 | 第33-35页 |
·机构名识别实验 | 第33-34页 |
·正文分词处理实验 | 第34-35页 |
·本章小结 | 第35-36页 |
第5章 人物信息结构化 | 第36-46页 |
·引言 | 第36页 |
·人物信息结构类型 | 第36-38页 |
·半结构化人物信息提取 | 第38-42页 |
·基于《知网》的语义相似度 | 第38-39页 |
·属性词词典建立 | 第39-41页 |
·基于词典匹配的方法 | 第41-42页 |
·非结构化人物信息提取 | 第42-44页 |
·文本分析 | 第42页 |
·触发词库建立 | 第42-43页 |
·规则库建立 | 第43-44页 |
·算法描述 | 第44页 |
·实验结果 | 第44-45页 |
·本章小结 | 第45-46页 |
总结 | 第46-48页 |
致谢 | 第48-49页 |
参考文献 | 第49-53页 |
攻读硕士学位期间发表的论文和科研情况 | 第53页 |