首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于Web内容挖掘的网页分类与过滤研究与应用

第一章 绪论第1-11页
 1.1 Web挖掘的现状第7-8页
 1.2 Web挖掘研究的现实意义和课题背景第8-11页
第二章 基于Web内容挖掘技术的网页分类与过滤第11-25页
 2.1 数据挖掘技术概述第11-17页
  2.1.1 数据挖掘的定义第11页
  2.1.2 数据挖掘和知识发现第11-13页
  2.1.3 数据挖掘技术第13-14页
  2.1.4 数据挖掘分类第14-17页
  2.1.5 数据挖掘的应用第17页
 2.2 Web挖掘技术概述第17-23页
  2.2.1 Web挖掘的定义第18-19页
  2.2.2 Web挖掘的分类第19-23页
 2.3 基于Web内容挖掘的网页分类与过滤系统第23-25页
第三章 网页数据采集和预处理第25-31页
 3.1 网页数据采集和预处理的基本概念第25-26页
  3.1.1 URL第25页
  3.1.2 HTTP第25-26页
  3.1.3 HTML第26页
 3.2 网页数据采集第26-29页
 3.3 网页数据预处理第29-31页
第四章 核心理论和算法第31-52页
 4.1 Web文本表示第31-32页
 4.2 自动分词第32-44页
  4.2.1 英文取词第32-33页
  4.2.2 中文分词词典的改进第33-44页
 4.3 特征项的选择第44-47页
  4.3.1 互信息第45页
  4.3.2 信息增益第45-46页
  4.3.3 x~2统计第46页
  4.3.4 特征项选择处理过程第46-47页
 4.4 分类方法第47-52页
  4.4.1 KNN第48-49页
  4.4.2 Naive Bayes第49-50页
  4.4.3 对Naive Bayes分类算法的加强第50-52页
第五章 系统的实现和试验分析第52-61页
 5.1 系统的设计原则第52页
 5.2 运行平台和开发工具第52页
 5.3 主要功能模块和系统的体系结构第52-57页
  5.3.1 Web数据采集模块第53-54页
  5.3.2 HTML内容提取第54-55页
  5.3.3 分词模块第55页
  5.3.4 主题管理第55页
  5.3.5 任务调度第55页
  5.3.6 模型评估第55-56页
  5.3.7 训练(学习)模块第56-57页
 5.4 试验设计和分析第57-61页
  5.4.1 Web数据采集的速度第57页
  5.4.2 特征项的数量第57-59页
  5.4.3 考虑标记词权重的朴素贝叶斯分类算法第59-61页
第六章 结束语第61-62页
 6.1 本文的总结第61页
 6.2 进一步的研究方向第61-62页
附录第62-64页
参考文献第64-67页
攻读硕士期间的论文发表情况及科研情况第67-68页
致谢第68页

论文共68页,点击 下载论文
上一篇:隐喻及其语篇衔接动态功能
下一篇:英语存在句研究:解释与评价