摘要 | 第4-5页 |
Abstract | 第5页 |
1 绪论 | 第8-14页 |
1.1 研究背景及意义 | 第8-9页 |
1.2 国内外研究 | 第9-12页 |
1.2.1 国内研究 | 第9-11页 |
1.2.2 国外文献 | 第11-12页 |
1.3 论文主要内容 | 第12-14页 |
2 基于文本相似性的垃圾文本信息过滤 | 第14-19页 |
2.1 局部哈希敏感算法介绍 | 第14-15页 |
2.2 文本相似性度量指标 | 第15-17页 |
2.2.1 夹角余弦(Cosine)距离 | 第15-16页 |
2.2.2 海明距离 | 第16页 |
2.2.3 杰卡德距离 | 第16-17页 |
2.3 基于局部哈希敏感算法的网络垃圾信息过滤技术实现 | 第17-19页 |
3 淘宝二手交易文本的主题聚类 | 第19-24页 |
3.1 基于主题模型的语义相似性算法原理 | 第19-21页 |
3.1.1 国内外研究 | 第19页 |
3.1.2 参数估计方法——Gibbs抽样 | 第19-21页 |
3.2 主题模型中的复杂度以及对数似然值理论 | 第21-22页 |
3.3 主题模型中词语与主题之间的相似性 | 第22页 |
3.4 主题模型中主题之间的相似性 | 第22-24页 |
4 淘宝二手交易文本的情绪识别 | 第24-27页 |
4.1 非监督式情感分析原理 | 第24-25页 |
4.1.1 基础情感词典 | 第24页 |
4.1.2 非监督式情感分析理论 | 第24-25页 |
4.1.3 Ansj中文分词工具 | 第25页 |
4.2 监督式情感分析原理 | 第25-27页 |
5 基于词向量技术的二手交易文本数据结构化 | 第27-33页 |
5.1 词向量技术概述 | 第27-28页 |
5.1.1 One-Hot词表示 | 第27页 |
5.1.2 Distributed词表示 | 第27-28页 |
5.2 word2vec算法原理 | 第28-30页 |
5.3 基于词向量的二手交易市场相似话题探究 | 第30-33页 |
6 淘宝二手电子设备消费者的用户画像 | 第33-46页 |
6.1 数据预处理与描述 | 第34-35页 |
6.1.1 数据词云图 | 第34页 |
6.1.2 不同品牌在淘宝会员等级分布 | 第34-35页 |
6.2 基于主题模型的用户话题偏好 | 第35-38页 |
6.2.1 主题模型最优主题数量甄别 | 第35-36页 |
6.2.2 LDA主题模型主题相似性探究 | 第36-38页 |
6.3 基于情感分析的用户情感偏好 | 第38-41页 |
6.4 二手交易市场的多维度用户画像 | 第41-46页 |
7 总结与展望 | 第46-49页 |
7.1 总结 | 第46-48页 |
7.2 展望 | 第48-49页 |
参考文献 | 第49-52页 |
致谢 | 第52-53页 |
攻读硕士学位期间的科研成果及获奖荣誉 | 第53页 |