社会化数据挖掘中的若干问题研究
摘要 | 第3-6页 |
ABSTRACT | 第6-8页 |
主要符号对照表 | 第15-17页 |
第一章 绪论 | 第17-33页 |
1.1 研究背景 | 第17-21页 |
1.1.1 微博 | 第17-19页 |
1.1.2 众包服务 | 第19-20页 |
1.1.3 用户评论 | 第20-21页 |
1.2 研究内容 | 第21-30页 |
1.2.1 优化众包序列标注 | 第23-24页 |
1.2.2 检测微博僵尸用户 | 第24-26页 |
1.2.3 检测微博中软广告 | 第26-27页 |
1.2.4 用户评论数据中的模式抽取 | 第27-30页 |
1.3 研究创新点 | 第30-31页 |
1.4 章节安排 | 第31-33页 |
第二章 对于众包序列标注的研究 | 第33-55页 |
2.1 简介 | 第33-35页 |
2.2 聚合众包序列标注 | 第35-46页 |
2.2.1 问题抽象 | 第35-36页 |
2.2.2 众包序列标注聚合模型 | 第36-43页 |
2.2.3 主动学习聚合模型 | 第43-46页 |
2.3 实验 | 第46-52页 |
2.3.1 数据集 | 第46页 |
2.3.2 聚合模型评测 | 第46-48页 |
2.3.3 主动学习聚合模型评测 | 第48-52页 |
2.4 相关工作 | 第52-55页 |
2.4.1 提高众包标注的精度 | 第52-53页 |
2.4.2 提高众包标注的效率 | 第53-55页 |
第三章 微博僵尸用户检测 | 第55-79页 |
3.1 简介 | 第55-57页 |
3.2 僵尸用户检测模型 | 第57-64页 |
3.2.1 问题抽象 | 第57页 |
3.2.2 概率模型 | 第57-62页 |
3.2.3 参数估计 | 第62-64页 |
3.2.4 时间复杂度分析 | 第64页 |
3.3 轻量级检测模型 | 第64-67页 |
3.4 实验 | 第67-74页 |
3.4.1 数据集合 | 第68-69页 |
3.4.2 特征抽取 | 第69-71页 |
3.4.3 分类精度评测 | 第71-72页 |
3.4.4 僵尸用户检测应用 | 第72-74页 |
3.4.5 轻量级检测模型 | 第74页 |
3.5 相关工作 | 第74-79页 |
3.5.1 万维网数据可靠性研究 | 第75-76页 |
3.5.2 微博数据的可靠性研究 | 第76-79页 |
第四章 微博软广告检测 | 第79-91页 |
4.1 简介 | 第79-81页 |
4.2 软广告检测模型 | 第81-86页 |
4.2.1 问题描述 | 第81-83页 |
4.2.2 有约束的共聚类检测模型 | 第83-86页 |
4.3 实验 | 第86-90页 |
4.3.1 数据集合 | 第86页 |
4.3.2 聚类模型评测 | 第86-88页 |
4.3.3 聚类和分类的精度比较 | 第88-90页 |
4.4 相关工作 | 第90-91页 |
4.4.1 清除垃圾微博数据 | 第90页 |
4.4.2 清除扭曲的微博数据 | 第90-91页 |
第五章 用户评论情感倾向性模式抽取 | 第91-107页 |
5.1 简介 | 第91-92页 |
5.2 迭代采样的频繁项集抽取方法 | 第92-97页 |
5.2.1 需要的迭代次数 | 第94-96页 |
5.2.2 模式评测 | 第96-97页 |
5.2.3 讨论 | 第97页 |
5.3 实验 | 第97-102页 |
5.3.1 数据集 | 第98页 |
5.3.2 实验结果 | 第98-102页 |
5.4 相关工作 | 第102-107页 |
5.4.1 具有情感倾向性的模式抽取 | 第102-103页 |
5.4.2 并行频繁项集挖掘 | 第103-104页 |
5.4.3 有区分度的频繁项集挖掘 | 第104-105页 |
5.4.4 频繁项集总结 | 第105-107页 |
第六章 全文总结 | 第107-109页 |
参考文献 | 第109-127页 |
致谢 | 第127-129页 |
攻读学位期间发表的学术论文目录 | 第129-131页 |