数据流频繁项算法性能提升的理论分析和算法研究
| 摘要 | 第1-4页 |
| Abstract | 第4-9页 |
| 第1章 引言 | 第9-15页 |
| ·数据挖掘与数据流 | 第9-11页 |
| ·数据流中的频繁项 | 第11-14页 |
| ·符号及其含义 | 第12页 |
| ·问题模型 | 第12-14页 |
| ·研究内容及主要贡献 | 第14-15页 |
| 第2章 相关工作 | 第15-23页 |
| ·数据流频繁项算法分类 | 第15-18页 |
| ·基于采样操作(Sampling-based) | 第15-16页 |
| ·基于哈希映射操作(Hashing-based) | 第16-17页 |
| ·基于计数操作(Counting-based) | 第17-18页 |
| ·层次数据流相关研究 | 第18页 |
| ·正性错误与负性错误 | 第18-19页 |
| ·典型算法举例 | 第19-23页 |
| ·Probabilistic InPlace | 第19-20页 |
| ·Group Test | 第20页 |
| ·Count Sketch | 第20-21页 |
| ·Frequent | 第21页 |
| ·Space Saving | 第21-23页 |
| 第3章 频繁项算法的误差边界 | 第23-41页 |
| ·Space Saving 回顾 | 第23-28页 |
| ·zip-f 分布 | 第23页 |
| ·数据结构与算法逻辑 | 第23-25页 |
| ·重要性质 | 第25-27页 |
| ·性能 | 第27-28页 |
| ·提升分析 | 第28-36页 |
| ·误差下界 | 第28页 |
| ·求解误差上界的更精确方法 | 第28-31页 |
| ·最小计数器组与严格上界 | 第31-33页 |
| ·严格上界的效率 | 第33-36页 |
| ·奢侈的解决方案 | 第36-40页 |
| ·方案描述 | 第36-39页 |
| ·实验 | 第39-40页 |
| ·本章小结 | 第40-41页 |
| 第4章 调整误差上界的新方法 | 第41-74页 |
| ·引子:层次信息的作用 | 第41-45页 |
| ·单计数器模型 | 第45-51页 |
| ·模型描述 | 第45-46页 |
| ·参数优化 | 第46-49页 |
| ·模拟优化实验 | 第49-50页 |
| ·放松条件的单计数器模型 | 第50-51页 |
| ·完备模型 | 第51-62页 |
| ·观察数据流的另一个视角 | 第51-54页 |
| ·模型描述 | 第54-56页 |
| ·性质 | 第56-58页 |
| ·完备模型下的SS_Random_r 合理性 | 第58-62页 |
| ·末BUCKET 生命周期策略 | 第62-67页 |
| ·策略描述 | 第62-64页 |
| ·参数优化 | 第64-67页 |
| ·末BUCKET 计数器策略 | 第67-71页 |
| ·策略描述 | 第67-68页 |
| ·参数转换 | 第68-69页 |
| ·误差分析 | 第69页 |
| ·变化边界的末BUCKET 计数器策略 | 第69-71页 |
| ·思考 | 第71-73页 |
| ·误差上界的增长速度 | 第71-72页 |
| ·算法参数与误差保证 | 第72-73页 |
| ·本章小结 | 第73-74页 |
| 第5章 实验 | 第74-87页 |
| ·算法性能评价标准 | 第74-76页 |
| ·人工数据生成器 | 第76-77页 |
| ·宏观对比 | 第77-80页 |
| ·频繁项查询 | 第77-79页 |
| ·top-k 查询 | 第79-80页 |
| ·微观对比 | 第80-86页 |
| ·排序偏差 | 第80-82页 |
| ·频率偏差 | 第82-84页 |
| ·top-k 准确率曲线 | 第84-85页 |
| ·最大可能误差 | 第85页 |
| ·微观指标与计数器替换次数的关系 | 第85-86页 |
| ·本章小结 | 第86-87页 |
| 第6章 对时间敏感数据流的处理 | 第87-90页 |
| ·时间权重 | 第87-88页 |
| ·权重的约束条件 | 第88-90页 |
| 第7章 结论 | 第90-93页 |
| ·研究工作总结 | 第90-91页 |
| ·进一步工作 | 第91-93页 |
| 参考文献 | 第93-96页 |
| 致谢 | 第96-97页 |
| 个人简历、在学期间发表的学术论文与研究成果 | 第97页 |