插图索引 | 第6-7页 |
表格索引 | 第7-8页 |
摘要 | 第8-10页 |
Abstract | 第10-11页 |
第一章 绪论 | 第12-28页 |
摘要 | 第12页 |
1.1. 引言 | 第12-13页 |
1.2. 相关技术概述 | 第13-22页 |
1.2.1. 数据索引技术 | 第13-16页 |
1.2.2. 数据检索及挖掘 | 第16-21页 |
1.2.3. 应用及研究意义 | 第21-22页 |
1.3. 本文工作及创新 | 第22-23页 |
1.4. 本文组织与结构 | 第23-24页 |
参考文献 | 第24-28页 |
第二章 研究背景与相关工作 | 第28-44页 |
摘要 | 第28页 |
2.1. 概率数据语义模型 | 第28-30页 |
2.1.1. 现有语义模型比较 | 第28-29页 |
2.1.2. 可能世界语义模型 | 第29-30页 |
2.2. 文本检索与分类 | 第30-39页 |
2.2.1. 特征选择 | 第30-33页 |
2.2.2. 索引方法 | 第33-35页 |
2.2.3. 检索模型 | 第35-36页 |
2.2.4. 分类算法 | 第36-37页 |
2.2.5. 性能评估 | 第37-39页 |
2.3. 小结 | 第39页 |
参考文献 | 第39-44页 |
第三章 概率空间数据的文本检索技术研究 | 第44-69页 |
摘要 | 第44页 |
3.1. 引言 | 第44-45页 |
3.2. 相关研究进展 | 第45-46页 |
3.3. 问题陈述 | 第46-49页 |
3.3.1. 研究动机 | 第46-48页 |
3.3.2. 基本定义 | 第48-49页 |
3.4. 检索语义 | 第49-53页 |
3.4.1. 两步检索框架 | 第49-50页 |
3.4.2. 现有检索语义比较 | 第50-51页 |
3.4.3. top-(c,k)检索语义 | 第51-53页 |
3.5. 增量得分计算方法 | 第53-56页 |
3.5.1. IRTree索引结构 | 第53-55页 |
3.5.2. ISA 算法 | 第55-56页 |
3.6. 参数化概率排序算法PRANK~c | 第56-60页 |
3.6.1. 基本算法PRank~c | 第56-58页 |
3.6.2. 优化策略 | 第58-59页 |
3.6.3. 参数估计 | 第59-60页 |
3.7. 实验结果和分析 | 第60-66页 |
3.7.1. 实验环境搭建 | 第60-61页 |
3.7.2. 相似度函数选择 | 第61-63页 |
3.7.3. 验证参数c的必要性 | 第63页 |
3.7.4. 验证top-(c,k)检索模式性能 | 第63-65页 |
3.7.5. 验证优化策略的有效性 | 第65页 |
3.7.6. 验证检索时间性能 | 第65-66页 |
3.8. 小结 | 第66页 |
参考文献 | 第66-69页 |
第四章 概率数据的频繁项集挖掘技术研究 | 第69-86页 |
摘要 | 第69页 |
4.1. 引言 | 第69-70页 |
4.2. 相关研究进展 | 第70-71页 |
4.2.1. 传统的频繁项集挖掘技术 | 第70-71页 |
4.2.2. 不确定数据上频繁项集挖掘技术 | 第71页 |
4.3. 概率频繁项集的语义 | 第71-76页 |
4.3.1. 基本定义 | 第71-73页 |
4.3.2. 概率事务语义解释 | 第73-74页 |
4.3.3. 两种语义对比分析 | 第74-76页 |
4.3.4. 概率频繁项集的性质 | 第76页 |
4.4. 概率频繁项集挖掘方法 | 第76-80页 |
4.4.1. 候选项集判定方法 | 第76-78页 |
4.4.2. 增量式概率频繁项集挖掘方法 | 第78-80页 |
4.5. 实验分析 | 第80-83页 |
4.5.1. 实验环境搭建 | 第80-81页 |
4.5.2. 测试项目概率分布敏感性 | 第81页 |
4.5.3. 测试挖掘参数的影响 | 第81-83页 |
4.5.4. 测试可伸缩性 | 第83页 |
4.6. 小结 | 第83页 |
参考文献 | 第83-86页 |
第五章 多层文本分类技术研究 | 第86-101页 |
摘要 | 第86页 |
5.1. 引言 | 第86-87页 |
5.2. 背景知识及研究进展 | 第87-91页 |
5.2.1. 文本表示模型 | 第87-88页 |
5.2.2. 文本分类器 | 第88-89页 |
5.2.3. 样本集构建方法 | 第89-90页 |
5.2.4. 相关研究进展 | 第90-91页 |
5.3. 数据偏斜平衡方法 | 第91-93页 |
5.3.1. 路径语义向量表示 | 第91-92页 |
5.3.2. 训练样本增强策略 | 第92-93页 |
5.4. 错误传播降低与纠正 | 第93-96页 |
5.4.1. 降低错误传播 | 第94-95页 |
5.4.2. 纠正错误传播 | 第95-96页 |
5.4.3. 多层文本分类算法 | 第96页 |
5.5. 实验 | 第96-99页 |
5.5.1. 实验设置 | 第96页 |
5.5.2. 验证数据偏斜平衡策略的有效性 | 第96-97页 |
5.5.3. 验证错误传播纠正策略的有效性 | 第97-98页 |
5.5.4. 验证多层文本分类算法的性能 | 第98-99页 |
5.6. 小结 | 第99页 |
参考文献 | 第99-101页 |
第六章 总结及展望 | 第101-103页 |
摘要 | 第101页 |
6.1 总结 | 第101-102页 |
6.2 展望 | 第102-103页 |
致谢 | 第103-104页 |
附录A 攻读博士学位期间发表(录用)论文情况 | 第104页 |
附录B 攻读博士学位期间获奖和参加科研学术活动情况 | 第104-106页 |