首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于语义和版式的网上人物信息提取

摘要第1-5页
Abstract第5-8页
第一章 绪论第8-14页
   ·研究背景第8-9页
   ·发展历史和研究现状第9-11页
   ·本文主要内容第11-14页
第二章 Web信息提取技术综述第14-27页
   ·分装器生成第15-17页
     ·手工生成分装器第15-16页
     ·半自动化生成分装器第16页
     ·全自动生成分装器第16-17页
   ·Web网页特征第17-18页
   ·Web信息抽取规则表达第18-19页
     ·有限状态自动机第18页
     ·一阶逻辑规则第18-19页
   ·常用Web信息抽取算法第19-23页
     ·基于统计机器学习的信息抽取算法第19-22页
     ·基于ontology方式的信息抽取算法第22-23页
     ·基于HTML结构的信息抽取算法第23页
     ·基于Web查询的信息抽取算法第23页
   ·Web信息抽取系统的评价标准第23-24页
   ·典型的Web信息抽取系统第24-26页
     ·WIEN第24页
     ·SRV第24-25页
     ·WHISK第25-26页
     ·Cora计算机科学研究论文搜索引擎第26页
   ·小结第26-27页
第三章 系统开发环境及相关技术XML&DOM简介第27-33页
   ·系统开发环境第27-28页
   ·XML概述和模式第28页
   ·XML在信息抽取中的优势第28-30页
   ·XML在本文信息抽取中的应用第30页
   ·DOM概述和特点第30-31页
   ·小结第31-33页
第四章 信息抽取系统PeopleInfoAbstract的实现第33-46页
   ·系统流程图第33-34页
   ·系统模块与功能第34-35页
   ·网页数据采集第35-38页
     ·网上人物信息的定义和分类第35-36页
     ·网页采集标准第36-38页
   ·网页预处理第38-39页
     ·提取网页正文区第38-39页
     ·去掉所有html标签第39页
   ·PeopleInfoAbstract信息抽取算法第39-45页
     ·算法流程图第39-41页
     ·数据有效性检验和冗余判断第41页
     ·字段值的提取第41-43页
     ·姓名的提取第43-45页
   ·小结第45-46页
第五章 PeopleInfoAbstract系统的测试与改进第46-51页
   ·系统测试第46-49页
   ·系统改进第49-51页
第六章 总结与展望第51-53页
   ·本文主要研究内容第51-52页
   ·下一步研究工作第52-53页
参考文献第53-55页
致谢第55-56页
硕士期间发表论文第56-57页
附录第57-68页

论文共68页,点击 下载论文
上一篇:基于802.1x的校园网认证及计费管理的研究
下一篇:基于数据挖掘的内容分发网络的研究与应用