首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web的大规模中文人物信息提取研究

摘要第1-7页
Abstract第7-11页
第1章 绪论第11-15页
   ·项目背景第11页
   ·目的和意义第11页
   ·研究现状分析第11-13页
   ·本文主要研究内容第13-15页
第2章 人物网页数据采集第15-22页
   ·引言第15页
   ·爬虫概述第15-16页
   ·HttpClient介绍第16页
   ·网页数据下载第16-21页
     ·网页数据普通方式下载第16-17页
     ·网页数据代理方式下载第17-19页
     ·动态网页数据下载第19-21页
     ·实验结果第21页
   ·本章小结第21-22页
第3章 基于DOM的网页正文信息提取第22-28页
   ·引言第22页
   ·DOM简介第22-24页
   ·Html解析器第24页
   ·基于DOM的正文抽取方法第24-25页
     ·原理分析第24-25页
     ·算法过程描述第25页
   ·实验结果第25-27页
   ·本章小结第27-28页
第4章 网页正文的分词处理第28-36页
   ·引言第28-29页
   ·分词系统介绍第29页
   ·组织机构名识别第29-33页
     ·机构名的组成结构第29-30页
     ·机构名构成词的词频统计第30页
     ·词语频数统计排序第30页
     ·机构后缀词整理第30-31页
     ·机构名词典的建立第31页
     ·机构词词频的计算第31-32页
     ·机构名识别方法第32页
     ·算法描述第32-33页
   ·实验结果第33-35页
     ·机构名识别实验第33-34页
     ·正文分词处理实验第34-35页
   ·本章小结第35-36页
第5章 人物信息结构化第36-46页
   ·引言第36页
   ·人物信息结构类型第36-38页
   ·半结构化人物信息提取第38-42页
     ·基于《知网》的语义相似度第38-39页
     ·属性词词典建立第39-41页
     ·基于词典匹配的方法第41-42页
   ·非结构化人物信息提取第42-44页
     ·文本分析第42页
     ·触发词库建立第42-43页
     ·规则库建立第43-44页
     ·算法描述第44页
   ·实验结果第44-45页
   ·本章小结第45-46页
总结第46-48页
致谢第48-49页
参考文献第49-53页
攻读硕士学位期间发表的论文和科研情况第53页

论文共53页,点击 下载论文
上一篇:受限路网中移动对象双层索引结构研究
下一篇:基于视频动态特征分析的烟雾检测算法研究