| 摘要 | 第1-12页 |
| ABSTRACT | 第12-14页 |
| 第一章 绪论 | 第14-32页 |
| ·研究背景与意义 | 第14-18页 |
| ·信息检索对文本信息组织的需求 | 第15-16页 |
| ·文本分类/聚类技术在文本信息组织中的作用 | 第16-17页 |
| ·混合索引模型在文本信息组织中的作用 | 第17-18页 |
| ·相关领域研究进展 | 第18-27页 |
| ·文本表示研究进展 | 第18-19页 |
| ·文本分类技术研究进展 | 第19-22页 |
| ·文本聚类技术研究进展 | 第22-24页 |
| ·文本索引模型技术研究进展 | 第24-27页 |
| ·相关研究工作的不足 | 第27-29页 |
| ·本文主要工作 | 第29-30页 |
| ·论文结构 | 第30-32页 |
| 第二章 基于无参数聚类算法的文本集主题结构挖掘 | 第32-56页 |
| ·引言 | 第32-33页 |
| ·问题分析 | 第33-36页 |
| ·问题提出 | 第33页 |
| ·相关工作的不足 | 第33-36页 |
| ·动态阈值选择模型 | 第36-38页 |
| ·设计思路 | 第36-37页 |
| ·动态阈值选择方法 | 第37-38页 |
| ·无参数局部密度聚类算法DTSLD | 第38-43页 |
| ·动态近邻选择 | 第38-39页 |
| ·相对密度阈值自动选取 | 第39-40页 |
| ·DTSLD 算法基本定义 | 第40-41页 |
| ·DTSLD 算法流程描述 | 第41-42页 |
| ·DTSLD 算法性能分析 | 第42-43页 |
| ·DTSLD 在文本集主题结构挖掘中的应用 | 第43-45页 |
| ·文本相似度计算方法分析 | 第43-44页 |
| ·基于核方法的文本相似度计算方法 | 第44-45页 |
| ·实验与分析 | 第45-55页 |
| ·实验设置 | 第45-46页 |
| ·DTSLD 算法有效性分析 | 第46-50页 |
| ·RDBKNN 参数敏感性分析 | 第50-52页 |
| ·DTLSD 自动参数选择分析 | 第52-53页 |
| ·DTSLD 算法在文本集主题挖掘中的实验 | 第53-55页 |
| ·DTSLD 算法效率分析 | 第55页 |
| ·小结 | 第55-56页 |
| 第三章 基于直推式分类算法的文本自动归类 | 第56-78页 |
| ·引言 | 第56-57页 |
| ·问题分析 | 第57-60页 |
| ·利用未标记样本辅助学习的基本原理 | 第57-58页 |
| ·现有工作的不足 | 第58-60页 |
| ·基于半监督学习与数据剪辑的直推式文本分类算法 | 第60-70页 |
| ·训练集扩充方法 | 第60-63页 |
| ·扩充训练集数据剪辑方法 | 第63-66页 |
| ·边界样本的处理方法 | 第66-67页 |
| ·Tri-ed-training-Tsvm 算法流程描述 | 第67-69页 |
| ·Tri-ed-training-Tsvm 算法复杂度分析 | 第69-70页 |
| ·实验与分析 | 第70-77页 |
| ·实验设置 | 第70页 |
| ·实验数据 | 第70-71页 |
| ·Tri-ed-training-Tsvm 算法与其他两种算法准确率比较 | 第71-74页 |
| ·有标记样本数量对算法的影响分析 | 第74-75页 |
| ·数据剪辑对训练集扩大的作用分析 | 第75-77页 |
| ·小结 | 第77-78页 |
| 第四章 基于特征选择的文本数据降维 | 第78-96页 |
| ·引言 | 第78-79页 |
| ·基于Fisher 线性判别模型的FS 文本特征选择算法 | 第79-82页 |
| ·Fisher 线性判别模型 | 第79-80页 |
| ·FS 文本特征选择算法 | 第80-82页 |
| ·基于互信息的改进特征选择算法MI-1 | 第82-86页 |
| ·互信息特征选择算法分析 | 第82-85页 |
| ·MI 算法的改进 | 第85-86页 |
| ·实验与分析 | 第86-94页 |
| ·三种常用的文本特征选择方法 | 第86-87页 |
| ·评价标准 | 第87-88页 |
| ·实验数据 | 第88-89页 |
| ·降维算法运行时间比较 | 第89页 |
| ·降维算法对文本分类准确率的影响 | 第89-91页 |
| ·降维算法对文本分类效率的影响 | 第91-92页 |
| ·特征评估值与DF 相关性分析 | 第92-94页 |
| ·小结 | 第94-96页 |
| 第五章 字词混合一体化中文索引模型 | 第96-128页 |
| ·引言 | 第96-97页 |
| ·设计思路 | 第97-102页 |
| ·互关联后继树模型 | 第97-99页 |
| ·互关联后继树模型分析 | 第99-100页 |
| ·混合索引的构建 | 第100-102页 |
| ·基于互关联后继树的字词混合索引模型MWIRST | 第102-119页 |
| ·基本定义 | 第102-106页 |
| ·存储结构 | 第106-110页 |
| ·相关算法 | 第110-119页 |
| ·实验与分析 | 第119-126页 |
| ·评价标准 | 第119-121页 |
| ·实验设置 | 第121页 |
| ·时间复杂度分析 | 第121-123页 |
| ·空间复杂度分析 | 第123-124页 |
| ·查全查准率分析 | 第124-126页 |
| ·查询完备性与动态性分析 | 第126页 |
| ·小结 | 第126-128页 |
| 第六章 面向信息检索的文本信息组织平台 | 第128-136页 |
| ·引言 | 第128页 |
| ·平台总体框架 | 第128-131页 |
| ·总体结构 | 第128-130页 |
| ·总体工作流程 | 第130-131页 |
| ·主要功能模块的设计与实现 | 第131-134页 |
| ·文本预处理模块 | 第131-132页 |
| ·文本管理模块 | 第132-133页 |
| ·文本索引模块 | 第133-134页 |
| ·小结 | 第134-136页 |
| 第七章 结论与展望 | 第136-140页 |
| ·本文的主要贡献与创新点 | 第136-138页 |
| ·未来的研究工作 | 第138-140页 |
| 致谢 | 第140-142页 |
| 参考文献 | 第142-154页 |
| 攻读博士学位期间发表的学术论文 | 第154页 |
| 攻读博士学位期间所获科研奖项 | 第154页 |