第一章 绪论 | 第1-11页 |
1.1 Web挖掘的现状 | 第7-8页 |
1.2 Web挖掘研究的现实意义和课题背景 | 第8-11页 |
第二章 基于Web内容挖掘技术的网页分类与过滤 | 第11-25页 |
2.1 数据挖掘技术概述 | 第11-17页 |
2.1.1 数据挖掘的定义 | 第11页 |
2.1.2 数据挖掘和知识发现 | 第11-13页 |
2.1.3 数据挖掘技术 | 第13-14页 |
2.1.4 数据挖掘分类 | 第14-17页 |
2.1.5 数据挖掘的应用 | 第17页 |
2.2 Web挖掘技术概述 | 第17-23页 |
2.2.1 Web挖掘的定义 | 第18-19页 |
2.2.2 Web挖掘的分类 | 第19-23页 |
2.3 基于Web内容挖掘的网页分类与过滤系统 | 第23-25页 |
第三章 网页数据采集和预处理 | 第25-31页 |
3.1 网页数据采集和预处理的基本概念 | 第25-26页 |
3.1.1 URL | 第25页 |
3.1.2 HTTP | 第25-26页 |
3.1.3 HTML | 第26页 |
3.2 网页数据采集 | 第26-29页 |
3.3 网页数据预处理 | 第29-31页 |
第四章 核心理论和算法 | 第31-52页 |
4.1 Web文本表示 | 第31-32页 |
4.2 自动分词 | 第32-44页 |
4.2.1 英文取词 | 第32-33页 |
4.2.2 中文分词词典的改进 | 第33-44页 |
4.3 特征项的选择 | 第44-47页 |
4.3.1 互信息 | 第45页 |
4.3.2 信息增益 | 第45-46页 |
4.3.3 x~2统计 | 第46页 |
4.3.4 特征项选择处理过程 | 第46-47页 |
4.4 分类方法 | 第47-52页 |
4.4.1 KNN | 第48-49页 |
4.4.2 Naive Bayes | 第49-50页 |
4.4.3 对Naive Bayes分类算法的加强 | 第50-52页 |
第五章 系统的实现和试验分析 | 第52-61页 |
5.1 系统的设计原则 | 第52页 |
5.2 运行平台和开发工具 | 第52页 |
5.3 主要功能模块和系统的体系结构 | 第52-57页 |
5.3.1 Web数据采集模块 | 第53-54页 |
5.3.2 HTML内容提取 | 第54-55页 |
5.3.3 分词模块 | 第55页 |
5.3.4 主题管理 | 第55页 |
5.3.5 任务调度 | 第55页 |
5.3.6 模型评估 | 第55-56页 |
5.3.7 训练(学习)模块 | 第56-57页 |
5.4 试验设计和分析 | 第57-61页 |
5.4.1 Web数据采集的速度 | 第57页 |
5.4.2 特征项的数量 | 第57-59页 |
5.4.3 考虑标记词权重的朴素贝叶斯分类算法 | 第59-61页 |
第六章 结束语 | 第61-62页 |
6.1 本文的总结 | 第61页 |
6.2 进一步的研究方向 | 第61-62页 |
附录 | 第62-64页 |
参考文献 | 第64-67页 |
攻读硕士期间的论文发表情况及科研情况 | 第67-68页 |
致谢 | 第68页 |