面向互联网新闻的重点人物识别及相关事件演化的研究与实现
摘要 | 第5-6页 |
ABSTRACT | 第6-7页 |
第一章 绪论 | 第11-18页 |
1.1 研究背景 | 第11页 |
1.2 国内外研究现状 | 第11-14页 |
1.3 本文研究内容 | 第14-16页 |
1.4 论文组织结构 | 第16-18页 |
第二章 相关技术介绍 | 第18-26页 |
2.1 Word2Vec模型 | 第18-19页 |
2.2 共现网络 | 第19页 |
2.3 文本挖掘 | 第19-20页 |
2.3.1 数据预处理 | 第19-20页 |
2.3.2 文本建模 | 第20页 |
2.3.3 文本聚类 | 第20页 |
2.4 随机游走模型 | 第20-21页 |
2.5 社团发现 | 第21页 |
2.6 并行计算框架 | 第21-25页 |
2.6.1 Hadoop | 第21-22页 |
2.6.2 HDFS | 第22-23页 |
2.6.3 MapReduce | 第23-24页 |
2.6.4 Spark | 第24-25页 |
2.7 本章小结 | 第25-26页 |
第三章 重点新闻人物抽取 | 第26-33页 |
3.1 数据获取和预处理 | 第26页 |
3.2 Word2Vec词向量训练 | 第26-27页 |
3.3 人物共现网络构建 | 第27-28页 |
3.4 重点人物抽取 | 第28-30页 |
3.4.1 复杂网络中心性 | 第28-29页 |
3.4.2 TOPSIS算法及其改进 | 第29-30页 |
3.5 实验结果 | 第30-32页 |
3.5.1 数据说明 | 第30页 |
3.5.2 评价标准 | 第30页 |
3.5.3 实验结果及分析 | 第30-32页 |
3.6 本章小结 | 第32-33页 |
第四章 新闻文本建模 | 第33-44页 |
4.1 新闻数据建模 | 第33-35页 |
4.1.1 词向量聚合 | 第33页 |
4.1.2 JS-IDF相似度计算 | 第33-34页 |
4.1.3 文本向量构建 | 第34-35页 |
4.2 文本聚类 | 第35-36页 |
4.3 新闻事件抽取 | 第36页 |
4.4 并行化处理 | 第36-38页 |
4.5 实验结果及分析 | 第38-43页 |
4.5.1 数据说明 | 第38-39页 |
4.5.2 JSIDF文本建模结果及分析 | 第39-42页 |
4.5.3 并行化结果分析 | 第42-43页 |
4.6 本章小结 | 第43-44页 |
第五章 事件演化分析 | 第44-62页 |
5.1 新闻事件的抽取建模 | 第44-45页 |
5.2 事件演化分析 | 第45-49页 |
5.2.1 时间关联 | 第45页 |
5.2.2 随机游走关联 | 第45-49页 |
5.2.3 相似度关联 | 第49页 |
5.3 事件演化阶段 | 第49页 |
5.4 基于Louvain算法的演化阶段划分 | 第49-51页 |
5.4.1 Louvain算法介绍 | 第49-51页 |
5.5 新闻热点事件 | 第51页 |
5.6 并行化处理 | 第51-52页 |
5.6.1 MapReduce并行化处理 | 第51-52页 |
5.6.2 Spark并行化处理 | 第52页 |
5.7 实验结果及分析 | 第52-60页 |
5.7.1 数据说明 | 第52-53页 |
5.7.2 EEM_RW_T事件演化结果及分析 | 第53-58页 |
5.7.3 演化阶段划分以及热点事件抽取分析 | 第58-60页 |
5.7.4 并行化效果分析 | 第60页 |
5.8 本章小结 | 第60-62页 |
第六章 总结及展望 | 第62-64页 |
参考文献 | 第64-67页 |
致谢 | 第67-68页 |
攻读学位期间发表的学术论文目录 | 第68页 |