论文创新点 | 第5-10页 |
摘要 | 第10-12页 |
ABSTRACT | 第12-14页 |
1 引言 | 第15-29页 |
1.1 研究背景 | 第15-18页 |
1.2 虚假评论识别的研究现状 | 第18-26页 |
1.2.1 面向虚假评论的识别研究 | 第18-22页 |
1.2.2 面向虚假评论者的识别研究 | 第22-24页 |
1.2.3 其他相关研究 | 第24-26页 |
1.3 虚假评论识别面临的困难与挑战 | 第26页 |
1.4 本文的研究重点和工作内容 | 第26-29页 |
2 基于半监督学习算法的虚假评论识别 | 第29-43页 |
2.1 概述 | 第29-30页 |
2.2 数据集的构建 | 第30-31页 |
2.2.1 数据预处理 | 第30-31页 |
2.2.2 数据标注 | 第31页 |
2.3 特征工程 | 第31-34页 |
2.3.1 词汇特征 | 第31页 |
2.3.2 句法特征 | 第31-33页 |
2.3.2.1 淺层句法特征 | 第31-32页 |
2.3.2.2 深层句法特征 | 第32-33页 |
2.3.3 心理语言学特征 | 第33页 |
2.3.4 评论者特征 | 第33-34页 |
2.3.4.1 形象特征 | 第33页 |
2.3.4.2 行为特征 | 第33-34页 |
2.4 基于全监督学习的虚假评论识别 | 第34页 |
2.5 基于半监督学习的虚假评论识别 | 第34-37页 |
2.5.1 理论依据 | 第35页 |
2.5.2 Co-training算法 | 第35-36页 |
2.5.3 Tri-training算法 | 第36-37页 |
2.6 实验结果 | 第37-42页 |
2.6.1 全监督学习结果 | 第37-39页 |
2.6.2 半监督学习结果 | 第39-40页 |
2.6.3 深层句法信息 | 第40-41页 |
2.6.4 参数敏感性 | 第41-42页 |
2.7 本章小结 | 第42-43页 |
3 基于PU学习算法的虚假评论识别 | 第43-59页 |
3.1 概述 | 第43-44页 |
3.2 数据集描述 | 第44-45页 |
3.2.1 虚假评论 | 第44页 |
3.2.2 真实评论 | 第44-45页 |
3.3 PU算法识别虚假评论 | 第45-53页 |
3.3.1 问题定义及符号标记 | 第46页 |
3.3.2 抽取可信负例 | 第46页 |
3.3.3 计算代表性样例 | 第46-47页 |
3.3.4 确定间谍样例的类别标签 | 第47-52页 |
3.3.4.1 样例的种群性 | 第48-50页 |
3.3.4.2 样例的个体性 | 第50-52页 |
3.3.5 建立最终分类器 | 第52-53页 |
3.4 实验设置和评价 | 第53页 |
3.5 人工性能 | 第53-54页 |
3.6 实验结果和分析 | 第54-56页 |
3.6.1 实验结果 | 第54-56页 |
3.6.2 参数敏感性 | 第56页 |
3.7 本章小结 | 第56-59页 |
4 基于改进的SVM算法识别虚假评论 | 第59-67页 |
4.1 概述 | 第59页 |
4.2 SVM算法简述 | 第59-60页 |
4.3 改进的SVM算法识别虚假评论 | 第60-64页 |
4.3.1 计算相似性权重 | 第60-61页 |
4.3.1.1 种群性计算 | 第60-61页 |
4.3.1.2 个体性计算 | 第61页 |
4.3.1.3 概率权重计算 | 第61页 |
4.3.2 构造SVM分类器 | 第61-62页 |
4.3.3 对偶问题 | 第62-64页 |
4.4 数据集和实验设置 | 第64-65页 |
4.5 实验结果和分析 | 第65-66页 |
4.5.1 实验结果 | 第65页 |
4.5.2 参数敏感性 | 第65-66页 |
4.6 本章小结 | 第66-67页 |
5 基于误例判别算法的虚假评论识别 | 第67-79页 |
5.1 概述 | 第67页 |
5.2 数据集的构建 | 第67-69页 |
5.2.1 数据预处理 | 第68页 |
5.2.2 数据标注 | 第68-69页 |
5.3 人工性能 | 第69页 |
5.4 误例判别算法识别虚假评论 | 第69-72页 |
5.4.1 误例判别算法 | 第71-72页 |
5.5 特征工程 | 第72-74页 |
5.5.1 词汇特征 | 第72-73页 |
5.5.2 句法特征 | 第73-74页 |
5.5.2.1 浅或层句法特征 | 第73页 |
5.5.2.2 深层句法特征 | 第73-74页 |
5.5.3 心理语言学特征 | 第74页 |
5.5.4 最优分类器选择 | 第74页 |
5.5.5 停止准则 | 第74页 |
5.6 实验设置 | 第74-75页 |
5.7 实验结果和分析 | 第75-77页 |
5.7.1 实验结果 | 第75-76页 |
5.7.2 不同子集数目下的算法性能 | 第76-77页 |
5.7.3 不同迭代次数下的算法性能 | 第77页 |
5.8 本章小结 | 第77-79页 |
6 基于自适应遗传算法的多核支持向量机识别虚假评论 | 第79-89页 |
6.1 概述 | 第79页 |
6.2 多核学习相关工作 | 第79-80页 |
6.3 多核支持向量机 | 第80-81页 |
6.4 自适应遗传算法优化核函数和多核权系数 | 第81-85页 |
6.4.1 编码 | 第82页 |
6.4.2 适应度函数 | 第82页 |
6.4.3 遗传算子 | 第82-84页 |
6.4.3.1 复制 | 第82页 |
6.4.3.2 交叉 | 第82-83页 |
6.4.3.3 变异 | 第83-84页 |
6.4.4 交叉概率的自适应确定 | 第84页 |
6.4.5 变异概率的自适应确定 | 第84-85页 |
6.4.6 优化算法 | 第85页 |
6.5 数据集 | 第85-86页 |
6.6 实验设置 | 第86页 |
6.7 实验结果 | 第86-88页 |
6.8 本章小结 | 第88-89页 |
7 总结与展望 | 第89-91页 |
7.1 本文总结 | 第89-90页 |
7.2 工作展望 | 第90-91页 |
参考文献 | 第91-103页 |
攻博期间发表的科研成果目录 | 第103-105页 |
致谢 | 第105页 |