基于数据挖掘技术的产品垃圾评论识别研究
摘要 | 第5-6页 |
Abstract | 第6页 |
第1章 绪论 | 第9-20页 |
1.1 研究背景和意义 | 第9-10页 |
1.2 研究现状及分析 | 第10-16页 |
1.2.1 数据挖掘技术及其应用现状 | 第10-14页 |
1.2.2 垃圾评识别论研究现状 | 第14-16页 |
1.3 产品评论的特点与垃圾评论分类 | 第16-18页 |
1.4 主要研究内容与论文组织结构 | 第18-19页 |
1.4.1 主要研究内容 | 第18-19页 |
1.4.2 论文组织结构 | 第19页 |
1.5 本章小结 | 第19-20页 |
第2章 短评论的处理和垃圾评论特征的构建 | 第20-31页 |
2.1 特征词抽取和评论预处理 | 第21-23页 |
2.2 短产品评论的处理 | 第23-24页 |
2.3 分类特征的构建 | 第24-27页 |
2.4 分类模型的构建 | 第27-28页 |
2.5 实验数据与结果分析 | 第28-30页 |
2.5.1 短评论处理 | 第29页 |
2.5.2 基于 KNN 分类器的垃圾评论识别 | 第29-30页 |
2.6 本章小结 | 第30-31页 |
第3章 基于改进 KNN 算法的垃圾评论识别 | 第31-38页 |
3.1 KNN 算法的优缺点分析和改进策略 | 第31-32页 |
3.2 改进的 KNN 算法 | 第32-35页 |
3.2.1 距离函数中加入特征权重 | 第32-33页 |
3.2.2 可变的 k 值 | 第33-35页 |
3.3 实验数据与分析 | 第35-37页 |
3.3.1 采用加权距离函数 | 第35-36页 |
3.3.2 可变的 k 值 | 第36-37页 |
3.4 本章小结 | 第37-38页 |
第4章 虚假评论的识别 | 第38-45页 |
4.1 2-gram 模型的构建 | 第38-39页 |
4.2 基于 KL 散度的重复评论识别方法 | 第39-40页 |
4.3 快速的重复评论的识别方法 | 第40-43页 |
4.3.1 虚假评论的特征分析 | 第40-42页 |
4.3.2 虚假评论的识别 | 第42-43页 |
4.4 实验数据与分析 | 第43-44页 |
4.5 本章小结 | 第44-45页 |
第5章 总结与展望 | 第45-47页 |
5.1 论文工作总结 | 第45页 |
5.2 工作展望 | 第45-47页 |
参考文献 | 第47-49页 |
致谢 | 第49-50页 |
攻读学位期间取得的科研成果 | 第50页 |