分布式全文索引技术的研究
| 摘要 | 第1-5页 |
| Abstract | 第5-8页 |
| 第1章 绪论 | 第8-14页 |
| ·课题研究的背景和意义 | 第8-10页 |
| ·国内外研究现状 | 第10-12页 |
| ·本文的主要研究内容 | 第12-13页 |
| ·论文结构安排 | 第13-14页 |
| 第2章 倒排索引与内容抽取 | 第14-28页 |
| ·引言 | 第14-15页 |
| ·倒排索引 | 第15-16页 |
| ·网页内容抽取 | 第16-26页 |
| ·新闻页面内容抽取 | 第17-20页 |
| ·BLOG 页面内容抽取 | 第20-22页 |
| ·BBS 页面内容抽取 | 第22-25页 |
| ·提取样例 | 第25-26页 |
| ·对抽取后的内容创建倒排索引 | 第26-27页 |
| ·本章小结 | 第27-28页 |
| 第3章 分布式索引数据分配策略的选择 | 第28-38页 |
| ·引言 | 第28页 |
| ·两种分布式索引分配策略 | 第28-32页 |
| ·文档划分和词表划分 | 第28-30页 |
| ·两种分配策略的性能比较 | 第30-32页 |
| ·分层结构的分布式索引系统 | 第32-37页 |
| ·系统应用的网络环境以及分层设计 | 第32-35页 |
| ·检索性能分析 | 第35-37页 |
| ·本章小结 | 第37-38页 |
| 第4章 舆情监控系统中分布式索引系统的实现 | 第38-54页 |
| ·引言 | 第38页 |
| ·创建系统主要用到的开源软件介绍 | 第38-41页 |
| ·全文搜索框架lucene | 第38-40页 |
| ·分词组件IKAnalyzer | 第40-41页 |
| ·系统整体架构 | 第41-43页 |
| ·索引检索模块实现 | 第43-49页 |
| ·系统的体系结构 | 第43-44页 |
| ·系统模块图 | 第44-45页 |
| ·内容抽取模块 | 第45-46页 |
| ·词表划分模块 | 第46-47页 |
| ·索引建立与重建模块 | 第47-48页 |
| ·索引更新模块 | 第48页 |
| ·查询模块 | 第48-49页 |
| ·系统测试 | 第49-53页 |
| ·实验方案 | 第50页 |
| ·测试环境 | 第50页 |
| ·实验数据 | 第50-51页 |
| ·实验结果 | 第51-53页 |
| ·本章小结 | 第53-54页 |
| 结论 | 第54-55页 |
| 参考文献 | 第55-60页 |
| 致谢 | 第60页 |