摘要 | 第5-7页 |
Abstract | 第7-9页 |
第1章 绪论 | 第15-24页 |
1.1 选题背景与意义 | 第15-18页 |
1.1.1 互联网发展现状和趋势 | 第15-16页 |
1.1.2 网络内容安全的挑战 | 第16-17页 |
1.1.3 网络内容安全研究的必要性 | 第17-18页 |
1.2 网络内容安全的概念及发展现状 | 第18-20页 |
1.2.1 网络内容安全概念和特点 | 第18-19页 |
1.2.2 网络内容安全研究与发展现状 | 第19-20页 |
1.3 本文主要研究内容以及组织结构 | 第20-24页 |
1.3.1 本文的主要研究内容 | 第20-22页 |
1.3.2 本文的组织结构 | 第22-24页 |
第2章 网络内容安全的信息挖掘技术与理论 | 第24-51页 |
2.1 Web数据挖掘技术 | 第24-29页 |
2.1.1 Web数据挖掘基本定义 | 第24页 |
2.1.2 Web数据挖掘任务分类 | 第24-25页 |
2.1.3 聚类技术综述 | 第25-29页 |
2.1.3.1 聚类的概念 | 第25-26页 |
2.1.3.2 聚类算法综述 | 第26-29页 |
2.2 话题检测与跟踪技术 | 第29-37页 |
2.2.1 研究背景和基本概念 | 第29-30页 |
2.2.2 TDT研究体系结构 | 第30-32页 |
2.2.2.1 报道切分任务 | 第31页 |
2.2.2.2 话题跟踪任务 | 第31页 |
2.2.2.3 话题检测任务 | 第31页 |
2.2.2.4 新事件检测任务 | 第31-32页 |
2.2.2.5 关联检测任务 | 第32页 |
2.2.3 热点话题识别研究综述 | 第32-33页 |
2.2.4 话题跟踪技术研究综述 | 第33-36页 |
2.2.5 TDT发展趋势 | 第36-37页 |
2.3 社会网络分析技术 | 第37-44页 |
2.3.1 社会化媒体与传统媒体的区别 | 第37-38页 |
2.3.2 社会化网络分析技术面临的挑战 | 第38-39页 |
2.3.3 社会化网络分析的主要任务 | 第39-41页 |
2.3.3.1 网络建模 | 第39页 |
2.3.3.2 中心性分析和影响度建模 | 第39-40页 |
2.3.3.3 社团发现 | 第40-41页 |
2.3.3.4 分类与推荐 | 第41页 |
2.3.3.5 隐私与安全 | 第41页 |
2.3.4 社团发现技术研究综述 | 第41-44页 |
2.4 网络舆情监控与分析技术 | 第44-50页 |
2.4.1 网络舆情基本概念 | 第44页 |
2.4.2 网络舆情研究层次结构 | 第44-46页 |
2.4.3 国内外研究现状 | 第46-50页 |
2.4.3.1 事件元素抽取和数据融合 | 第46-47页 |
2.4.3.2 敏感信息舆情中的事件态势分析 | 第47页 |
2.4.3.3 观点挖掘与倾向性分析 | 第47-48页 |
2.4.3.4 国外应用产品与技术平台概况 | 第48-49页 |
2.4.3.5 国内研究机构与技术平台概况 | 第49-50页 |
2.5 本章小结 | 第50-51页 |
第3章 基于蚁群聚类方法的热点话题识别研究 | 第51-73页 |
3.1 研究动机及意义 | 第51-52页 |
3.2 蚁群聚类模型及相关研究 | 第52-57页 |
3.2.1 两种蚁群聚类的模型 | 第52-55页 |
3.2.1.1 觅食模型 | 第52-54页 |
3.2.1.2 堆积模型 | 第54-55页 |
3.2.1.3 两个模型对比 | 第55页 |
3.2.2 蚁群聚类相关方法 | 第55-57页 |
3.3 文本数据建模 | 第57-60页 |
3.3.1 原始文本预处理 | 第58-59页 |
3.3.2 特征加权 | 第59-60页 |
3.4 基于IACTC算法的热点话题识别 | 第60-66页 |
3.4.1 BACTC算法分析 | 第60-61页 |
3.4.2 BACTC算法缺陷分析 | 第61-62页 |
3.4.3 IACTC算法改进 | 第62-65页 |
3.4.3.1 改进的概率转移函数 | 第62-63页 |
3.4.3.2 记忆器官 | 第63-64页 |
3.4.3.3 自适应移动范围 | 第64-65页 |
3.4.4 热点话题摘要抽取 | 第65-66页 |
3.5 算法验证与实验分析 | 第66-72页 |
3.5.1 数据集描述 | 第66-67页 |
3.5.2 评估方法 | 第67页 |
3.5.3 实验结果与分析 | 第67-72页 |
3.5.3.1 群体相似度系数测试 | 第67-69页 |
3.5.3.2 类簇发现能力测试 | 第69-70页 |
3.5.3.3 数据集规模对性能影响 | 第70-71页 |
3.5.3.4 热点话题摘要抽取效果 | 第71-72页 |
3.6 本章小结 | 第72-73页 |
第4章 自适应话题跟踪技术相关研究 | 第73-95页 |
4.1 研究动机及意义 | 第73-75页 |
4.2 带滑动时间窗口的自适应Sinle-Pass算法研究 | 第75-83页 |
4.2.1 话题跟踪中增量聚类面临的问题 | 第75-77页 |
4.2.2 ASP-SW算法设计 | 第77-83页 |
4.2.2.1 Single-Pass算法缺陷 | 第77-78页 |
4.2.2.2 基于pLSA的自适应话题模型 | 第78-80页 |
4.2.2.3 文本流中的滑动时间窗口设计 | 第80-81页 |
4.2.2.4 阈值策略 | 第81-83页 |
4.3 基于连续的零散词拼接的网络新词汇发现 | 第83-86页 |
4.3.1 n-scattered算法描述 | 第83-86页 |
4.3.1.1 词串拼接 | 第83页 |
4.3.1.2 词串过滤 | 第83-84页 |
4.3.1.3 共现率计算 | 第84-85页 |
4.3.1.4 n-scattered流程 | 第85-86页 |
4.4 算法验证与实验分析 | 第86-94页 |
4.4.1 数据集描述 | 第86-87页 |
4.4.1.1 ASP-SW算法使用数据集 | 第86-87页 |
4.4.1.2 n-scattered算法使用数据集 | 第87页 |
4.4.2 评估方法 | 第87-88页 |
4.4.3 实验结果 | 第88-94页 |
4.4.3.1 特征维度对ASP-SW的影响 | 第88-90页 |
4.4.3.2 ASP-SW算法各要素影响测试 | 第90-91页 |
4.4.3.3 针对部分话题的性能比较 | 第91-93页 |
4.4.3.4 n-scattered算法验证 | 第93-94页 |
4.5 本章小结 | 第94-95页 |
第5章 社会化网络媒体中的社团发现模型与算法研究 | 第95-111页 |
5.1 研究动机及意义 | 第95-96页 |
5.2 社团-话题交互模型描述 | 第96-99页 |
5.2.1 CTIM模型框架 | 第97-98页 |
5.2.2 交互函数与性质 | 第98-99页 |
5.3 基于CTIM模型的社团发现算法 | 第99-104页 |
5.3.1 二分网络和贡献权重映射 | 第99-101页 |
5.3.2 CTIM模块度 | 第101-102页 |
5.3.3 节点摆动现象处理 | 第102-103页 |
5.3.4 CD-CTIM算法描述 | 第103-104页 |
5.4 算法验证与实验分析 | 第104-109页 |
5.4.1 数据集结构与预处理 | 第104-106页 |
5.4.2 权重比对算法的影响实验 | 第106-107页 |
5.4.3 与GN算法的比较实验 | 第107-109页 |
5.5 本章小结 | 第109-111页 |
第6章 网络舆情监控与分析系统设计与研究 | 第111-132页 |
6.1 系统整体架构设计 | 第111-115页 |
6.1.1 YQ系统与本文之前研究点的关系 | 第111-112页 |
6.1.2 系统架构设计与功能模块划分 | 第112-115页 |
6.2 系统各个模块的设计与研究 | 第115-127页 |
6.2.1 信息采集模块设计 | 第115-118页 |
6.2.2 信息预处理模块相关技术研究 | 第118-123页 |
6.2.2.1 基于模板库的内容抽取技术 | 第118-121页 |
6.2.2.2 三级索引模式设计 | 第121-123页 |
6.2.3 数据存储模块策略设计 | 第123-126页 |
6.2.4 业务管理模块部分功能设计 | 第126-127页 |
6.2.4.1 二维度用户权限管理 | 第126-127页 |
6.2.4.2 舆情编报工作流体系 | 第127页 |
6.3 系统分析与效果展示 | 第127-130页 |
6.3.1 信息采集模块性能分析 | 第127-128页 |
6.3.2 在线话题检测与跟踪效果 | 第128-130页 |
6.3.3 舆情编报工作流体系效果 | 第130页 |
6.4 本章小结 | 第130-132页 |
第7章 总结与展望 | 第132-134页 |
7.1 论文工作总结 | 第132-133页 |
7.2 下一步工作展望 | 第133-134页 |
参考文献 | 第134-144页 |
致谢 | 第144-146页 |
攻读博士期间发表的论文 | 第146-148页 |
攻读博士期间参加的科研项目 | 第148页 |