摘要 | 第1-7页 |
ABSTRACT | 第7-8页 |
1. 引言 | 第8-12页 |
1.1 研究背景 | 第8-9页 |
1.1.1 数据挖掘(Data Mining,简称DM) | 第9页 |
1.1.2 WEB文本数据挖掘(Web Text Mining) | 第9页 |
1.2 国内外研究现状 | 第9-11页 |
1.3 研究方向 | 第11-12页 |
1.4 研究意义 | 第12页 |
1.5 本文主要研究内容及组织 | 第12页 |
2. 文本分类数据挖掘方法 | 第12-17页 |
2.1 支持向量机(Support Vector Machines,SVM)方法 | 第13-15页 |
2.2 向量空间模型 | 第15页 |
2.3 KNN(K-最近邻居)数据挖掘方法 | 第15-17页 |
3. 基于信息搜索改进的信息监控 | 第17-21页 |
3.1 信息搜索方式 | 第17-18页 |
3.2 基于向量空间模型信息搜索原理 | 第18页 |
3.3 基于向量空间模型信息搜索算法 | 第18-19页 |
3.4 基于向量空间模型信息搜索改进基本思路 | 第19页 |
3.5 基于向量空间模型信息搜索改进算法 | 第19-20页 |
3.6 基于信息搜索改进的信息监控特点 | 第20-21页 |
4. 信息监控系统总体设计 | 第21-24页 |
4.1 设计思想 | 第21-22页 |
4.2 体系结构 | 第22页 |
4.3 系统功能 | 第22-24页 |
4.3.1 WEB信息采集 | 第22页 |
4.3.2 文本自动分类 | 第22-23页 |
4.3.3 类别判断功能 | 第23页 |
4.3.4 有害信息报警 | 第23页 |
4.3.5 其它功能 | 第23-24页 |
4.3.5.1 网页操作 | 第23页 |
4.3.5.2 网页管理 | 第23-24页 |
4.3.5.3 网页查询汇总 | 第24页 |
4.3.5.4 网页分析预测 | 第24页 |
4.3.5.5 报表与统计 | 第24页 |
5. WEB文本信息采集 | 第24-28页 |
5.1 信息采集定义 | 第24页 |
5.2 半结构化数据定义 | 第24-25页 |
5.3 Web结构挖掘--超链接分析算法思想 | 第25-27页 |
5.4 WEB文本信息自动采集 | 第27-28页 |
5.4.1 WEB文本信息自动采集流程图 | 第27页 |
5.4.2 Spider信息采集 | 第27-28页 |
5.4.3 页面分析,清除噪音 | 第28页 |
5.4.4 超链接提取 | 第28页 |
5.4.5 规范文本 | 第28页 |
6. 文本自动分类 | 第28-47页 |
6.1 文本分类模型图 | 第29-30页 |
6.2 语料搜集和专业词表 | 第30页 |
6.3 中文分词 | 第30-32页 |
6.3.1 分词匹配算法 | 第30页 |
6.3.2 算法框架 | 第30-32页 |
6.4 文本训练参数窗口设计 | 第32-34页 |
6.4.1 参数窗口 | 第32页 |
6.4.2 训练文本分类模块程序框架 | 第32-34页 |
6.5 特征项的抽取 | 第34-39页 |
6.5.1 特征项抽取算法 | 第35-37页 |
6.5.2 互信息量或信息增益量算法程序实现 | 第37-39页 |
6.6 特征词权重计算 | 第39-40页 |
6.7 相似度计算程序实现 | 第40-41页 |
6.8 分类模块程序实现 | 第41-44页 |
6.9 阈值的确定 | 第44-45页 |
6.10 训练分类模型 | 第45-47页 |
7. 总结及下一步工作 | 第47-49页 |
参考文献 | 第49-53页 |
致谢 | 第53-54页 |