| 摘要 | 第1-8页 |
| Abstract | 第8-9页 |
| 插图索引 | 第9-10页 |
| 第1章 绪论 | 第10-16页 |
| ·研究背景与意义 | 第10-11页 |
| ·文本立方体的国内外研究现状 | 第11-13页 |
| ·数据仓库及OLAP技术 | 第11页 |
| ·文本立方体技术的国内外研究现状 | 第11-13页 |
| ·文本OLAP技术面临的主要问题 | 第13-14页 |
| ·本文所做的工作 | 第14页 |
| ·论文的组织结构 | 第14-16页 |
| 第2章 文本数据建模方法 | 第16-27页 |
| ·引言 | 第16页 |
| ·文本数据预处理技术 | 第16-20页 |
| ·中文分词 | 第16-17页 |
| ·文本数据的处理模型 | 第17-19页 |
| ·文本相似度计算 | 第19-20页 |
| ·聚类算法 | 第20-23页 |
| ·聚类算法概述 | 第20-21页 |
| ·基于划分的聚类算法 | 第21-22页 |
| ·类间距离度量 | 第22-23页 |
| ·数据立方体 | 第23-26页 |
| ·数据立方体与OLAP技术 | 第23-24页 |
| ·ROLAP系统中的立方体构建模型 | 第24-26页 |
| ·小结 | 第26-27页 |
| 第3章 分布式计算框架及OLAP平台 | 第27-38页 |
| ·HADOOP云存储、计算平台 | 第27-34页 |
| ·HDFS(Hadoop Distributed File System)分布式文件系统 | 第27-31页 |
| ·MapReduce计算框架 | 第31-32页 |
| ·HBase存储原理 | 第32-34页 |
| ·MONDRIAN OLAP平台 | 第34-37页 |
| ·Mondrian开源OLAP引擎简介 | 第34-35页 |
| ·立方体模型配置文件简介 | 第35-37页 |
| ·小结 | 第37-38页 |
| 第4章 文本主题提取 | 第38-50页 |
| ·文本主题提取模块需求分析 | 第38-39页 |
| ·算法设计的整体思想 | 第39页 |
| ·功能模块设计 | 第39-49页 |
| ·向量空间模型构建模块 | 第39-41页 |
| ·特征词与文档的关联度向量生成模块 | 第41-43页 |
| ·文档按特征词归类模块 | 第43页 |
| ·基于划分的聚类模块 | 第43-47页 |
| ·算法测试与评估 | 第47-49页 |
| ·小结 | 第49-50页 |
| 第5章 文本立方体的构建原理与实现 | 第50-59页 |
| ·立方体构建需求分析 | 第50页 |
| ·立方体度量计算原理 | 第50-51页 |
| ·功能模块的设计与实现 | 第51-56页 |
| ·事实表的构建 | 第51-53页 |
| ·维度表构建 | 第53-54页 |
| ·星形模型构建模块 | 第54-56页 |
| ·实验结果展示 | 第56-58页 |
| ·小结 | 第58-59页 |
| 结论与展望 | 第59-60页 |
| 参考文献 | 第60-64页 |
| 致谢 | 第64页 |