摘要 | 第1-5页 |
Abstract | 第5-10页 |
第一章 引言 | 第10-16页 |
·研究背景及意义 | 第10-14页 |
·Web 挖掘 | 第10-11页 |
·网页去重 | 第11-13页 |
·文本分类 | 第13-14页 |
·本文的主要工作 | 第14页 |
·本文的章节安排 | 第14-16页 |
第二章 基于文本的 Web 挖掘概述 | 第16-26页 |
·Web 挖掘概述 | 第16-20页 |
·产生背景 | 第16页 |
·主要任务 | 第16-17页 |
·相关学科 | 第17页 |
·Web 挖掘分类 | 第17-20页 |
·超文本挖掘概述 | 第20-26页 |
·相关表示模型 | 第20-22页 |
·有指导学习 | 第22页 |
·无指导学习 | 第22页 |
·半指导学习 | 第22-23页 |
·社交网络分析 | 第23-26页 |
第三章 基于 MinApriori 度量的网页相似度检测 | 第26-44页 |
·Web 挖掘的基本过程 | 第26页 |
·Web 信息采集 | 第26-30页 |
·信息采集的基本原理 | 第26-27页 |
·信息采集器的基本结构 | 第27-29页 |
·Web 信息采集的实现 | 第29-30页 |
·Web 信息抽取 | 第30-33页 |
·常用的 Web 信息抽取方法 | 第30-32页 |
·Web 信息抽取实现 | 第32-33页 |
·中英文分词 | 第33-36页 |
·三种常用中文分词方法 | 第33-35页 |
·三种分词方法的优劣对比 | 第35-36页 |
·英文分词 | 第36页 |
·基于 MinApriori 相似度度量的网页重复检测 | 第36-44页 |
·常用重复检测方法分类 | 第36页 |
·基于语义方法的常见相似度度量 | 第36-38页 |
·MinApriori 方法 | 第38-40页 |
·MinApriori 度量 | 第40-41页 |
·MinApriori 度量和其他度量的比较 | 第41-42页 |
·基于MinApriori 度量的相似度检测方法及其在新闻网页中的应用 | 第42-44页 |
第四章 基于 ComplementNaiveBayes 的新闻分类 | 第44-72页 |
·文本分类概述 | 第44-47页 |
·文本分类定义 | 第44页 |
·文本分类的种类 | 第44-45页 |
·文本分类的评估 | 第45-47页 |
·文本分类的基本流程 | 第47页 |
·常用文本分类算法 | 第47-60页 |
·基于贝叶斯理论的分类算法 | 第47-55页 |
·基于 SVM 的分类算法 | 第55-57页 |
·基于实例学习的分类算法 | 第57-58页 |
·基于决策树的分类算法 | 第58-59页 |
·基于规则的分类算法 | 第59-60页 |
·常用文本分类算法的比较 | 第60-65页 |
·属性降维 | 第65-67页 |
·用于降维的常用函数 | 第65-67页 |
·降维试验 | 第67-68页 |
·基于 ComplementNaiveBayes 新闻自动分类系统 | 第68-72页 |
第五章 网络新闻在线挖掘服务系统的实现 | 第72-80页 |
·系统开发背景 | 第72-73页 |
·硬件拓扑结构 | 第73-75页 |
·系统体系结构 | 第75-76页 |
·在线挖掘服务模块架构 | 第76-78页 |
·系统界面效果图 | 第78-80页 |
·新闻自动分类界面 | 第78-79页 |
·相似性检测界面 | 第79-80页 |
第六章 总结与展望 | 第80-82页 |
致谢 | 第82-83页 |
参考文献 | 第83-86页 |