基于Web的实体信息提取和搜索研究
摘要 | 第5-6页 |
Abstract | 第6-7页 |
第一章 绪论 | 第11-20页 |
1.1 研究工作的背景与意义 | 第11-12页 |
1.2 搜索引擎的研究现状 | 第12-17页 |
1.2.1 传统的搜索引擎技术 | 第12-14页 |
1.2.2 基于Web的实体搜索研究现状 | 第14-17页 |
1.2.3 搜索引擎技术存在的问题 | 第17页 |
1.3 论文主要研究内容 | 第17-18页 |
1.4 论文的结构安排 | 第18-20页 |
第二章 基于WEB的实体搜索相关技术 | 第20-35页 |
2.1 Web实体搜索引擎的体系结构 | 第20-21页 |
2.2 垂直爬虫技术 | 第21-22页 |
2.3 Web实体信息抽取技术 | 第22-32页 |
2.3.1 Web网页结构 | 第22-23页 |
2.3.2 信息抽取技术 | 第23-26页 |
2.3.3 Web信息抽取技术 | 第26-32页 |
2.4 信息检索模型 | 第32-34页 |
2.5 本章小结 | 第34-35页 |
第三章 基于链接模版树的垂直爬虫 | 第35-49页 |
3.1 开源网络爬虫Nutch | 第35-38页 |
3.1.1 Nutch的运行流程 | 第35-36页 |
3.1.2 Nutch插件机制 | 第36-38页 |
3.2 网页隧道特征 | 第38-39页 |
3.3 基于链接模版树的垂直爬虫 | 第39-44页 |
3.3.1 目标网页链接树 | 第40-41页 |
3.3.2 抽取链接模版 | 第41-43页 |
3.3.3 基于链接模版树的爬虫 | 第43-44页 |
3.4 实验与分析 | 第44-48页 |
3.4.1 召回率实验 | 第44-45页 |
3.4.2 对比实验 | 第45-48页 |
3.5 本章小结 | 第48-49页 |
第四章 基于DOM树和XSL的WEB实体信息抽取 | 第49-65页 |
4.1 相关技术 | 第49-50页 |
4.1.1 XSL | 第49页 |
4.1.2 XPath | 第49-50页 |
4.1.3 XML | 第50页 |
4.2 目前Web信息提取方法的缺点 | 第50-52页 |
4.3 基于DOM树和XSL的实体信息抽取 | 第52-57页 |
4.3.1 Web页面预处理 | 第52-53页 |
4.3.2 XML文档解析 | 第53页 |
4.3.3 路径规则提取 | 第53-55页 |
4.3.4 XSL转换 | 第55-56页 |
4.3.5 整体抽取过程描述 | 第56-57页 |
4.4 网页中多实体信息提取 | 第57-61页 |
4.4.1 提取最大数据子树 | 第58-59页 |
4.4.2 提取多实体规则 | 第59-61页 |
4.5 实验与分析 | 第61-64页 |
4.6 本章小结 | 第64-65页 |
第五章 基于LUCENE的实体索引和搜索 | 第65-80页 |
5.1 构建实体索引 | 第65-70页 |
5.1.1 Lucene分析和研究 | 第66-69页 |
5.1.2 实体索引结构 | 第69-70页 |
5.2 实体检索结果排序 | 第70-74页 |
5.2.1 Lucene评分机制 | 第70-72页 |
5.2.2 Lucene评分改进 | 第72-74页 |
5.3 实验与分析 | 第74-79页 |
5.3.1 数据集 | 第74-75页 |
5.3.2 评价指标 | 第75页 |
5.3.3 实验及结果 | 第75-77页 |
5.3.4 实验演示 | 第77-79页 |
5.4 本章小结 | 第79-80页 |
第六章 总结与展望 | 第80-82页 |
致谢 | 第82-83页 |
参考文献 | 第83-87页 |
在学期间的研究成果 | 第87-88页 |