基于领域特征的Web数据实体抽取的研究

摘要	第1-10页
ABSTRACT	第10-12页
第一章绪论	第12-20页
·课题研究背景	第12-14页
·国内外研究现状	第14-17页
·研究课题的主要内容	第17-18页
·本文所做的主要工作	第18-19页
·本文的组织结构	第19-20页
第二章面向领域的WEB数据实体抽取框架	第20-30页
·基于旅游领域知识的实体抽取框架TIEEF	第20-22页
·TIEEF框架组成	第22-29页
·数据源层	第22-23页
·预处理层	第23-25页
·实体抽取层	第25-28页
·数据集成层	第28-29页
·信息抽取服务过程	第29页
·小结	第29-30页
第三章领域知识和实体存储的设计	第30-36页
·利用XML组织数据	第30页
·领域词汇的组织	第30-31页
·实体的组织和存储	第31-33页
·将实体存储和Lucene的存储系统结合起来	第33-34页
·缓冲管理	第34-35页
·小结	第35-36页
第四章 WEB数据实体抽取过程	第36-55页
·预处理与中文分词的选择	第36-39页
·Lucene中的中文分词	第37-39页
·领域词汇的过滤识别	第39页
·页面的分块过滤	第39-46页
·领域词汇的分块过滤	第42-45页
·试验分析	第45-46页
·分析总结	第46页
·索引的建立	第46-48页
·TIEEF实体存储的设计	第47-48页
·利用条件随机场进行领域命名实体的识别	第48-54页
·命名实体识别的主要方法	第49-50页
·最大熵理论与条件随机场	第50-52页
·训练集	第52-53页
·特征选择	第53-54页
·小结	第54-55页
第五章 TIEEF运行系统实例分析	第55-59页
·评价指标	第55页
·试验数据分析	第55-58页
·手工抓取特定相关网站	第56-57页
·爬虫根据相关种子随机抓取页面	第57页
·爬虫抓取页面后进行分类	第57-58页
·领域词汇实体的识别	第58页
·小结	第58-59页
第六章总结与展望	第59-62页
·本文工作总结	第59-60页
·未来工作展望	第60-62页
参考文献	第62-66页
致谢	第66-67页
攻读硕士学位期间发表的学术论文目录	第67-68页
攻读硕士学位期间参与科研项目情况	第68-69页
学位论文评阅及答辩情况表	第69页