摘要 | 第1-5页 |
ABSTRACT | 第5-11页 |
1 绪论 | 第11-18页 |
·课题研究的目的和意义 | 第11-12页 |
·研究现状 | 第12-15页 |
·文本自动分类的研究现状 | 第12-13页 |
·网页自动分类的研究现状 | 第13-14页 |
·课题研究的难点及突出问题 | 第14-15页 |
·本文的工作及结构安排 | 第15-18页 |
2 文本分类理论基础及关键技术 | 第18-36页 |
·文本分类任务的特点 | 第18-19页 |
·文档集 | 第19-21页 |
·文档表示模型 | 第21-23页 |
·文档特征 | 第21-22页 |
·文档表示 | 第22-23页 |
·文档特征选择方法 | 第23-27页 |
·信息增量(Information Gain ) | 第23-24页 |
·互信息(Mutual Information ) | 第24页 |
·X2 统计 | 第24页 |
·交叉嫡(Cross Entropy ) | 第24-25页 |
·证据权值(Weight of Evidence ) | 第25页 |
·Fisher 判别式 | 第25-26页 |
·文档特征选择中的概率值估算 | 第26-27页 |
·文本分类方法 | 第27-32页 |
·决策树方法 | 第27页 |
·KNN(K 最邻近)算法 | 第27-30页 |
·朴素贝叶斯算法 | 第30-32页 |
·分类性能评估 | 第32-36页 |
·单类赋值 | 第33-35页 |
·多类排序 | 第35-36页 |
3 WEB 文本的采集和抽取 | 第36-73页 |
·WEB 的基本结构和特点 | 第36-43页 |
·Web 信息特点 | 第36-37页 |
·页面描述方法 | 第37-39页 |
·网站的组织结构 | 第39-40页 |
·网页的组织结构及层次结构 | 第40-42页 |
·网页的噪音数据 | 第42-43页 |
·信息抽取 | 第43-48页 |
·信息抽取概述 | 第43-45页 |
·信息抽取技术 | 第45-48页 |
·评价指标 | 第48页 |
·基于视觉的WEB 信息抽取 | 第48-66页 |
·DOM | 第50-53页 |
·信息块的表示和获取方法 | 第53-55页 |
·信息块位置信息的获取 | 第55-58页 |
·关键信息块的获取 | 第58-60页 |
·文本信息抽取 | 第60-66页 |
·网络蜘蛛和网页采集 | 第66-73页 |
·爬行算法 | 第66-71页 |
·多线程处理 | 第71-73页 |
4 基于粗糙集和SVM 的WEB 文本多层分类方法 | 第73-91页 |
·粗糙集概述 | 第73-76页 |
·信息系统 | 第74页 |
·不可分辨关系与决策表的定义 | 第74-75页 |
·决策表的属性约简 | 第75-76页 |
·文本预处理 | 第76-81页 |
·分词 | 第77-80页 |
·一种改进的WEB 文本特征项权重计算方法 | 第80-81页 |
·基于CHI 和粗糙集的特征提取 | 第81-84页 |
·CHI 原理 | 第81-82页 |
·CHI 特征提取和权值离散化 | 第82-83页 |
·构造决策表 | 第83-84页 |
·属性约简算法 | 第84页 |
·基于SVM 的多层次分类方法 | 第84-91页 |
·支持向量机分类方法 | 第85-87页 |
·多层次文本分类 | 第87-91页 |
5 网页自动分类系统设计和实验分析 | 第91-100页 |
·系统设计框架 | 第91-92页 |
·SQL Server 2005 Text Mining | 第92-93页 |
·基于Matlab 的SVM 多层分类Web Service | 第93-95页 |
·大规模WEB 文本语料库创建 | 第95-96页 |
·实验结果分析 | 第96-100页 |
·单层和多层SVM 的比较分析 | 第96-97页 |
·改进特征权重特征提取分析 | 第97-100页 |
6 分类搜索引擎设计 | 第100-104页 |
·概述 | 第100-101页 |
·搜索引擎的系统设计 | 第101-103页 |
·文本分类器的设计思想 | 第103-104页 |
7 结束语 | 第104-107页 |
·本文的主要工作和创新点 | 第104-105页 |
·展望 | 第105-107页 |
致谢 | 第107-108页 |
读研期间发表的论文 | 第108-109页 |
参考文献 | 第109-113页 |