摘要 | 第1-8页 |
Abstract | 第8-9页 |
插图索引 | 第9-10页 |
第1章 绪论 | 第10-16页 |
·研究背景与意义 | 第10-11页 |
·文本立方体的国内外研究现状 | 第11-13页 |
·数据仓库及OLAP技术 | 第11页 |
·文本立方体技术的国内外研究现状 | 第11-13页 |
·文本OLAP技术面临的主要问题 | 第13-14页 |
·本文所做的工作 | 第14页 |
·论文的组织结构 | 第14-16页 |
第2章 文本数据建模方法 | 第16-27页 |
·引言 | 第16页 |
·文本数据预处理技术 | 第16-20页 |
·中文分词 | 第16-17页 |
·文本数据的处理模型 | 第17-19页 |
·文本相似度计算 | 第19-20页 |
·聚类算法 | 第20-23页 |
·聚类算法概述 | 第20-21页 |
·基于划分的聚类算法 | 第21-22页 |
·类间距离度量 | 第22-23页 |
·数据立方体 | 第23-26页 |
·数据立方体与OLAP技术 | 第23-24页 |
·ROLAP系统中的立方体构建模型 | 第24-26页 |
·小结 | 第26-27页 |
第3章 分布式计算框架及OLAP平台 | 第27-38页 |
·HADOOP云存储、计算平台 | 第27-34页 |
·HDFS(Hadoop Distributed File System)分布式文件系统 | 第27-31页 |
·MapReduce计算框架 | 第31-32页 |
·HBase存储原理 | 第32-34页 |
·MONDRIAN OLAP平台 | 第34-37页 |
·Mondrian开源OLAP引擎简介 | 第34-35页 |
·立方体模型配置文件简介 | 第35-37页 |
·小结 | 第37-38页 |
第4章 文本主题提取 | 第38-50页 |
·文本主题提取模块需求分析 | 第38-39页 |
·算法设计的整体思想 | 第39页 |
·功能模块设计 | 第39-49页 |
·向量空间模型构建模块 | 第39-41页 |
·特征词与文档的关联度向量生成模块 | 第41-43页 |
·文档按特征词归类模块 | 第43页 |
·基于划分的聚类模块 | 第43-47页 |
·算法测试与评估 | 第47-49页 |
·小结 | 第49-50页 |
第5章 文本立方体的构建原理与实现 | 第50-59页 |
·立方体构建需求分析 | 第50页 |
·立方体度量计算原理 | 第50-51页 |
·功能模块的设计与实现 | 第51-56页 |
·事实表的构建 | 第51-53页 |
·维度表构建 | 第53-54页 |
·星形模型构建模块 | 第54-56页 |
·实验结果展示 | 第56-58页 |
·小结 | 第58-59页 |
结论与展望 | 第59-60页 |
参考文献 | 第60-64页 |
致谢 | 第64页 |