摘要 | 第1-5页 |
ABSTRACT | 第5-8页 |
第一章 引言 | 第8-13页 |
·课题背景与研究意义 | 第8-9页 |
·国内外web 舆情挖掘现状 | 第9-11页 |
·主要工作和成果 | 第11-12页 |
·论文组织结构 | 第12-13页 |
第二章 相关理论及关键技术 | 第13-28页 |
·海量web 舆情挖掘概要 | 第13-14页 |
·web 舆情概念及特征 | 第13页 |
·web 舆情挖掘步骤 | 第13-14页 |
·海量web 舆情挖掘关键技术 | 第14-27页 |
·爬虫技术 | 第14-19页 |
·网页解析技术 | 第19-21页 |
·分类技术 | 第21-23页 |
·聚类技术 | 第23-24页 |
·海量数据处理技术 | 第24-27页 |
·本章小结 | 第27-28页 |
第三章 可更改策略的爬虫子系统 | 第28-41页 |
·系统概述 | 第28-30页 |
·整体架构 | 第28-29页 |
·逻辑结构 | 第29-30页 |
·可更改策略的爬虫子系统关键技术 | 第30-36页 |
·URL 过滤 | 第30-31页 |
·URL 判重 | 第31-33页 |
·策略的更改 | 第33-36页 |
·可更改策略的爬虫子系统模块设计 | 第36-40页 |
·用户界面模块 | 第36-37页 |
·主控机/爬虫机模块 | 第37-39页 |
·处理器模块 | 第39-40页 |
·本章小结 | 第40-41页 |
第四章 基于内容特征的 web 舆情发现 | 第41-61页 |
·基于内容特征的web 舆情发现流程 | 第41-42页 |
·基于两层结构的分类算法 | 第42-50页 |
·特征选择与权重计算 | 第43-44页 |
·web 信息分类模型建立 | 第44-45页 |
·算法描述 | 第45-48页 |
·算法特性分析 | 第48-49页 |
·试验 | 第49-50页 |
·基于数据划分的分裂式层次聚类算法实现 | 第50-60页 |
·基于最大频繁词集的数据划分 | 第51-53页 |
·分裂式层次聚类算法 | 第53-55页 |
·关键模块设计 | 第55-57页 |
·基于最大频繁词集的数据划分方法在HADOOP 平台上的实现 | 第57-60页 |
·本章小结 | 第60-61页 |
第五章 系统设计与实现 | 第61-72页 |
·系统设计 | 第61-64页 |
·系统架构设计 | 第61-63页 |
·数据库设计 | 第63-64页 |
·系统工作流程 | 第64-67页 |
·可更改策略的爬虫子系统工作流程 | 第64-65页 |
·基于内容特征的web 舆情发现工作流程 | 第65-67页 |
·实验结果展示 | 第67-68页 |
·可更改策略的爬虫子系统实验结果 | 第67页 |
·基于内容特征的web 舆情发现实验结果 | 第67-68页 |
·系统演示 | 第68-71页 |
·可更改策略的爬虫子系统控制界面 | 第68-69页 |
·web 信息分类模型 | 第69-70页 |
·web 舆情发现展示 | 第70-71页 |
·本章小结 | 第71-72页 |
第六章 总结与展望 | 第72-74页 |
·总结 | 第72-73页 |
·展望 | 第73-74页 |
致谢 | 第74-75页 |
参考文献 | 第75-77页 |
攻读硕士期间研究成果 | 第77-78页 |