面向大规模数据的在线新事件检测

摘要	第1-6页
Abstract	第6-9页
第1章引言	第9-16页
·课题背景	第9-10页
·基本概念	第10-11页
·研究现状	第11-14页
·研究意义	第14页
·研究内容及组织结构	第14-16页
·研究内容	第14-15页
·组织结构	第15-16页
第2章新事件检测和分布式计算常用技术	第16-31页
·新事件检测技术	第16-24页
·文本预处理	第16-17页
·文本表示模型	第17-19页
·特征提取	第19-21页
·文本相似度计算	第21-22页
·相似度阈值	第22-23页
·类的表示	第23-24页
·基本NED算法	第24页
·Hadoop分布式计算平台	第24-30页
·MapReduce模型	第25-27页
·Hadoop分布式文件系统	第27-28页
·MapReduce编程	第28-30页
·本章小结	第30-31页
第3章面向大规模数据的在线新事件检测算法	第31-36页
·基于新闻要素的在线新事件检测算法	第31-33页
·报道和事件的表示模型	第31-32页
·报道和事件相似度的计算	第32页
·新事件检测方法	第32-33页
·改进的快速新事件检测算法	第33-35页
·基准算法的时间损耗分析	第33-34页
·报道预处理的并行化	第34页
·使用索引机制减少报道的比较次数	第34-35页
·倒排索引的设计与查找过程的并行化	第35页
·报道与事件比较过程的并行化	第35页
·本章小结	第35-36页
第4章大规模在线新事件检测系统的设计和实现	第36-47页
·系统总体架构设计	第36-37页
·报道预处理模块	第37-40页
·报道索引模块	第40-41页
·相似度比较模块	第41-44页
·事件聚类模块	第44-45页
·作业管理模块	第45-46页
·本章小结	第46-47页
第5章实验结果和分析	第47-58页
·实验环境搭建	第47-51页
·评测语料	第51页
·评测标准	第51-52页
·实验结果分析	第52-57页
·漏检率和误报率对比	第52-53页
·Hadoop系统参数的影响	第53-54页
·算法速度测试	第54-56页
·系统可扩展性测试	第56-57页
·本章小结	第57-58页
第6章总结和展望	第58-60页
·总结	第58页
·展望	第58-60页
参考文献	第60-63页
致谢	第63-64页
附录	第64页