基于Web的大规模中文人物信息提取研究

摘要	第1-7页
Abstract	第7-11页
第1章绪论	第11-15页
·项目背景	第11页
·目的和意义	第11页
·研究现状分析	第11-13页
·本文主要研究内容	第13-15页
第2章人物网页数据采集	第15-22页
·引言	第15页
·爬虫概述	第15-16页
·HttpClient介绍	第16页
·网页数据下载	第16-21页
·网页数据普通方式下载	第16-17页
·网页数据代理方式下载	第17-19页
·动态网页数据下载	第19-21页
·实验结果	第21页
·本章小结	第21-22页
第3章基于DOM的网页正文信息提取	第22-28页
·引言	第22页
·DOM简介	第22-24页
·Html解析器	第24页
·基于DOM的正文抽取方法	第24-25页
·原理分析	第24-25页
·算法过程描述	第25页
·实验结果	第25-27页
·本章小结	第27-28页
第4章网页正文的分词处理	第28-36页
·引言	第28-29页
·分词系统介绍	第29页
·组织机构名识别	第29-33页
·机构名的组成结构	第29-30页
·机构名构成词的词频统计	第30页
·词语频数统计排序	第30页
·机构后缀词整理	第30-31页
·机构名词典的建立	第31页
·机构词词频的计算	第31-32页
·机构名识别方法	第32页
·算法描述	第32-33页
·实验结果	第33-35页
·机构名识别实验	第33-34页
·正文分词处理实验	第34-35页
·本章小结	第35-36页
第5章人物信息结构化	第36-46页
·引言	第36页
·人物信息结构类型	第36-38页
·半结构化人物信息提取	第38-42页
·基于《知网》的语义相似度	第38-39页
·属性词词典建立	第39-41页
·基于词典匹配的方法	第41-42页
·非结构化人物信息提取	第42-44页
·文本分析	第42页
·触发词库建立	第42-43页
·规则库建立	第43-44页
·算法描述	第44页
·实验结果	第44-45页
·本章小结	第45-46页
总结	第46-48页
致谢	第48-49页
参考文献	第49-53页
攻读硕士学位期间发表的论文和科研情况	第53页