首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于领域特征的Web数据实体抽取的研究

摘要第1-10页
ABSTRACT第10-12页
第一章 绪论第12-20页
   ·课题研究背景第12-14页
   ·国内外研究现状第14-17页
   ·研究课题的主要内容第17-18页
   ·本文所做的主要工作第18-19页
   ·本文的组织结构第19-20页
第二章 面向领域的WEB数据实体抽取框架第20-30页
   ·基于旅游领域知识的实体抽取框架TIEEF第20-22页
   ·TIEEF框架组成第22-29页
     ·数据源层第22-23页
     ·预处理层第23-25页
     ·实体抽取层第25-28页
     ·数据集成层第28-29页
   ·信息抽取服务过程第29页
   ·小结第29-30页
第三章 领域知识和实体存储的设计第30-36页
   ·利用XML组织数据第30页
   ·领域词汇的组织第30-31页
   ·实体的组织和存储第31-33页
   ·将实体存储和Lucene的存储系统结合起来第33-34页
   ·缓冲管理第34-35页
   ·小结第35-36页
第四章 WEB数据实体抽取过程第36-55页
   ·预处理与中文分词的选择第36-39页
     ·Lucene中的中文分词第37-39页
     ·领域词汇的过滤识别第39页
   ·页面的分块过滤第39-46页
     ·领域词汇的分块过滤第42-45页
     ·试验分析第45-46页
     ·分析总结第46页
   ·索引的建立第46-48页
     ·TIEEF实体存储的设计第47-48页
   ·利用条件随机场进行领域命名实体的识别第48-54页
     ·命名实体识别的主要方法第49-50页
     ·最大熵理论与条件随机场第50-52页
     ·训练集第52-53页
     ·特征选择第53-54页
   ·小结第54-55页
第五章 TIEEF运行系统实例分析第55-59页
   ·评价指标第55页
   ·试验数据分析第55-58页
     ·手工抓取特定相关网站第56-57页
     ·爬虫根据相关种子随机抓取页面第57页
     ·爬虫抓取页面后进行分类第57-58页
     ·领域词汇实体的识别第58页
   ·小结第58-59页
第六章 总结与展望第59-62页
   ·本文工作总结第59-60页
   ·未来工作展望第60-62页
参考文献第62-66页
致谢第66-67页
攻读硕士学位期间发表的学术论文目录第67-68页
攻读硕士学位期间参与科研项目情况第68-69页
学位论文评阅及答辩情况表第69页

论文共69页,点击 下载论文
上一篇:高校网络数字化办公系统的设计与实现
下一篇:基于图和矩阵的关联规则挖掘算法