微博垃圾信息大规模爆发的检测方法研究及应用

摘要	第5-6页
Abstract	第6-7页
目录	第8-11页
第一章绪论	第11-16页
1.1 引言	第11-12页
1.2 国内外研究现状	第12-14页
1.3 论文的主要工作	第14-15页
1.4 论文组织结构	第15-16页
第二章相关理论与技术	第16-27页
2.1 聚类算法	第16-21页
2.1.1 simhash 算法	第16-18页
2.1.2 K-Means 算法	第18-19页
2.1.3 DBSCAN 算法	第19-20页
2.1.4 聚类效果评测指标	第20-21页
2.2 分类算法	第21-26页
2.2.1 决策树算法	第22-23页
2.2.2 SVM 算法	第23-24页
2.2.3 分类评测指标	第24-26页
2.3 小结	第26-27页
第三章检测系统总体设计	第27-36页
3.1 垃圾微博定义	第27-29页
3.2 微博垃圾大规模爆发的检测需求	第29-30页
3.3 检测系统的设计目标	第30页
3.4 检测系统框架设计	第30-34页
3.4.1 信息采集模块设计	第31-33页
3.4.2 文本聚类模块设计	第33页
3.4.3 文本分类模块设计	第33-34页
3.5 系统关键术语定义	第34-35页
3.6 小结	第35-36页
第四章关键算法的设计与实现	第36-66页
4.1 算法设计目标	第36页
4.2 基于微博文本的特征提取及特征权重设置方法	第36-44页
4.2.1 传统的 simhash 方法在微博文本应用的不足	第36-38页
4.2.2 基于文本连续分块的特征提取方法	第38-39页
4.2.3 FF-FID 特征权重设置方法	第39-40页
4.2.4 算法效果及验证	第40-41页
4.2.5 实验设计与结果分析	第41-44页
4.3 基于微博文本的大规模文本聚类	第44-57页
4.3.1 经过改进的大规模数据集聚类算法	第44-46页
4.3.2 文本奇异跳变	第46-47页
4.3.3 基于分块奇异跳变统计的大规模文本聚类算法	第47-49页
4.3.4 基于中文文本的 simhash 指纹的聚类	第49-53页
4.3.5 实验设计与结果分析	第53-57页
4.3.6 算法效果评价	第57页
4.4 文本簇判定	第57-64页
4.4.1 用户行为特征	第58-59页
4.4.2 基于决策树的微博文本可读性分类算法	第59-61页
4.4.3 微博文本垃圾属性分类的特征提取方式	第61-62页
4.4.4 实验设计与结果分析	第62-64页
4.4.5 算法效果评价	第64页
4.5 小结	第64-66页
第五章检测系统的详细实现	第66-81页
5.1 微博信息采集模块的设计与实现	第66-67页
5.1.1 微博文本去噪	第66页
5.1.2 文本指纹计算	第66-67页
5.2 微博文本聚类模块的实现	第67-73页
5.2.1 初始文本聚类子模块的实现	第67-70页
5.2.2 文本簇合并子模块的实现	第70-73页
5.3 微博文本分类模块的实现	第73-75页
5.3.1 分类器训练子模块的实现	第73-74页
5.3.2 预测子模块的实现	第74-75页
5.4 系统运行效果及分析	第75-80页
5.4.1 实验目标及环境	第75-76页
5.4.2 实验数据	第76页
5.4.3 实验设计与结果分析	第76-80页
5.5 小结	第80-81页
总结与展望	第81-83页
参考文献	第83-89页
攻读硕士学位期间取得的研究成果	第89-90页
致谢	第90-91页
附件	第91页