基于Web挖掘的网情处理方法研究
摘要 | 第1-10页 |
ABSTRACT | 第10-11页 |
第一章 绪论 | 第11-23页 |
·研究背景及问题的提出 | 第11-13页 |
·网络的快速发展引发了数据爆炸 | 第11页 |
·信息获取能力与网络信息共享之间严重失衡 | 第11-12页 |
·隐藏在互联网中的情报信息 | 第12页 |
·Web网情处理现状 | 第12-13页 |
·国内外研究现状 | 第13-20页 |
·Web挖掘概述 | 第14-16页 |
·应用研究 | 第16-19页 |
·Web挖掘当前存在问题 | 第19-20页 |
·本文研究内容 | 第20-23页 |
·本文所做的工作 | 第20-21页 |
·论文结构 | 第21-23页 |
第二章 基于Web挖掘的情报处理方法的总体架构 | 第23-34页 |
·Web网情挖掘的基本模式 | 第23-25页 |
·网情处理工作简述 | 第23-24页 |
·目前Web网情处理基本模式 | 第24页 |
·基于Web挖掘的网情处理基本模式 | 第24-25页 |
·Web网情处理框架 | 第25-28页 |
·任务描述 | 第25-26页 |
·方法实现 | 第26-27页 |
·处理框架 | 第27-28页 |
·方法研究的模块划分 | 第28-34页 |
·MLDB架构 | 第28-29页 |
·特征向量集 | 第29-30页 |
·挖掘模型 | 第30-31页 |
·主题词库概念 | 第31-32页 |
·模块间的相互关系 | 第32-34页 |
第三章 MLDB数据库的构建 | 第34-42页 |
·Web数据的特点 | 第34页 |
·数据的结构化与集成 | 第34-38页 |
·XML文档存储分析 | 第35-36页 |
·HTML向XML的转换 | 第36-37页 |
·XML文档的有效性检查 | 第37页 |
·XML数据处理 | 第37-38页 |
·Web数据的存储 | 第38-42页 |
·MLDB构建 | 第38-39页 |
·基于MLDB的网情存储模式 | 第39-41页 |
·Layer0的XML Schema设计 | 第41-42页 |
第四章 主题概念特征向量集的设计 | 第42-50页 |
·文档的向量表示法 | 第42-45页 |
·文档的向量空间表示法 | 第42页 |
·切分词处理 | 第42-43页 |
·特征词的提取评估 | 第43-45页 |
·主题词库构建 | 第45-47页 |
·主题词库的提出 | 第45-46页 |
·主题词库的构成 | 第46-47页 |
·构造针对主题的概念特征向量 | 第47-50页 |
·概念特征向量定义 | 第47-48页 |
·各层次上的概念向量实现及相互关系 | 第48-50页 |
第五章 挖掘模型的设计 | 第50-57页 |
·资料处理挖掘模型 | 第50页 |
·基于网情库的分类器 | 第50-53页 |
·分类器特征向量的构造 | 第51-52页 |
·分类挖掘 | 第52-53页 |
·基于特征向量的聚类方法实现 | 第53-56页 |
·相关概念 | 第53-54页 |
·理论依据 | 第54-55页 |
·数据准备 | 第55页 |
·算法描述 | 第55-56页 |
·对Web文档集聚类结果进行分类 | 第56-57页 |
第六章 模块原型及数据验证 | 第57-62页 |
·MLDB中Layer 0 层的Schema原型 | 第57-58页 |
·算法分析及验证 | 第58-60页 |
·不同特征词提取方法下的文本分类结果比较 | 第58-59页 |
·阈值e的选择对聚类的影响 | 第59-60页 |
·方法有效性分析 | 第60-62页 |
第七章 结束语 | 第62-64页 |
·本文所作的工作 | 第62页 |
·需要进一步研究的问题 | 第62-64页 |
致谢 | 第64-65页 |
参考文献 | 第65-69页 |
作者在学期间取得的学术成果 | 第69-70页 |
附录A MLDB中第0层中XML的schema | 第70-71页 |