基于Web的实体信息提取和搜索研究

摘要	第5-6页
Abstract	第6-7页
第一章绪论	第11-20页
1.1 研究工作的背景与意义	第11-12页
1.2 搜索引擎的研究现状	第12-17页
1.2.1 传统的搜索引擎技术	第12-14页
1.2.2 基于Web的实体搜索研究现状	第14-17页
1.2.3 搜索引擎技术存在的问题	第17页
1.3 论文主要研究内容	第17-18页
1.4 论文的结构安排	第18-20页
第二章基于WEB的实体搜索相关技术	第20-35页
2.1 Web实体搜索引擎的体系结构	第20-21页
2.2 垂直爬虫技术	第21-22页
2.3 Web实体信息抽取技术	第22-32页
2.3.1 Web网页结构	第22-23页
2.3.2 信息抽取技术	第23-26页
2.3.3 Web信息抽取技术	第26-32页
2.4 信息检索模型	第32-34页
2.5 本章小结	第34-35页
第三章基于链接模版树的垂直爬虫	第35-49页
3.1 开源网络爬虫Nutch	第35-38页
3.1.1 Nutch的运行流程	第35-36页
3.1.2 Nutch插件机制	第36-38页
3.2 网页隧道特征	第38-39页
3.3 基于链接模版树的垂直爬虫	第39-44页
3.3.1 目标网页链接树	第40-41页
3.3.2 抽取链接模版	第41-43页
3.3.3 基于链接模版树的爬虫	第43-44页
3.4 实验与分析	第44-48页
3.4.1 召回率实验	第44-45页
3.4.2 对比实验	第45-48页
3.5 本章小结	第48-49页
第四章基于DOM树和XSL的WEB实体信息抽取	第49-65页
4.1 相关技术	第49-50页
4.1.1 XSL	第49页
4.1.2 XPath	第49-50页
4.1.3 XML	第50页
4.2 目前Web信息提取方法的缺点	第50-52页
4.3 基于DOM树和XSL的实体信息抽取	第52-57页
4.3.1 Web页面预处理	第52-53页
4.3.2 XML文档解析	第53页
4.3.3 路径规则提取	第53-55页
4.3.4 XSL转换	第55-56页
4.3.5 整体抽取过程描述	第56-57页
4.4 网页中多实体信息提取	第57-61页
4.4.1 提取最大数据子树	第58-59页
4.4.2 提取多实体规则	第59-61页
4.5 实验与分析	第61-64页
4.6 本章小结	第64-65页
第五章基于LUCENE的实体索引和搜索	第65-80页
5.1 构建实体索引	第65-70页
5.1.1 Lucene分析和研究	第66-69页
5.1.2 实体索引结构	第69-70页
5.2 实体检索结果排序	第70-74页
5.2.1 Lucene评分机制	第70-72页
5.2.2 Lucene评分改进	第72-74页
5.3 实验与分析	第74-79页
5.3.1 数据集	第74-75页
5.3.2 评价指标	第75页
5.3.3 实验及结果	第75-77页
5.3.4 实验演示	第77-79页
5.4 本章小结	第79-80页
第六章总结与展望	第80-82页
致谢	第82-83页
参考文献	第83-87页
在学期间的研究成果	第87-88页