基于体裁的中文网页分类

摘要	第1-4页
Abstract	第4-9页
第一章绪论	第9-16页
·研究背景与意义	第9-10页
·文本分类概述	第10-12页
·文本分类的定义	第10页
·文本分类过程简介	第10-11页
·文本体裁分类概述	第11-12页
·国内外研究现状	第12-13页
·论文的主要工作与研究内容	第13-16页
·论文的主要工作	第13-14页
·论文的研究特色和创新说明	第14页
·论文的组织结构	第14-16页
第二章网页文本的特征表示	第16-33页
·网页文本预处理	第16-18页
·网页信息表示分析	第17页
·网页预处理流程	第17-18页
·特征项的选取	第18-25页
·频繁字符串特征	第19-23页
·传统的自动分词技术	第19-20页
·基于序列挖掘的频繁字符串抽取	第20-23页
·低频高权字符串特征的获取	第23页
·模糊字符串模式特征	第23-24页
·平均段长、平均句长	第24页
·网页的链接结构信息	第24-25页
·特征项的权重计算问题	第25-29页
·初始权重的计算	第25-26页
·基于特征空间区分能力的权值调整策略	第26-29页
·特征空间对不同体裁类别的区分能力	第27-28页
·样本的权值调整	第28-29页
·特征选择方法	第29-33页
·文本频率DF	第30页
·信息增益IG	第30-31页
·互信息MI	第31页
·χ~2 统计法	第31-33页
第三章文本分类和评估方法	第33-47页
·分类算法介绍	第33-38页
·中心向量比较法（Rocchio）	第33-34页
·K 近邻法（K-Nearest Neighbor，KNN）	第34页
·朴素贝叶斯算法（Na(?)ve Bayes，NB）	第34-35页
·支持向量机（Support Vector Machines，SVM）	第35-38页
·支持向量机基本原理	第36-37页
·SVM 多类分类方法	第37-38页
·一种SVM 与关联规则相结合的分类器SVMAR	第38-45页
·关联规则分类	第38-43页
·关联规则的挖掘	第39页
·关联规则的优化	第39-41页
·利用关联规则进行分类	第41-43页
·SVM 和关联规则分类器的组合――SVMAR	第43-45页
·分类结果的相关性分析	第43-44页
·候选类别权值的确定	第44页
·分类器的组合	第44-45页
·评估方法	第45-47页
·准确率、查全率和F1 值	第45-46页
·宏平均和微平均	第46-47页
第四章系统的设计实现与实验分析	第47-57页
·系统功能结构设计	第47-48页
·部分功能模块处理流程说明	第48-50页
·实验结果及性能评价	第50-57页
·数据集	第50页
·实验环境及开源项目说明	第50-51页
·实验结果分析	第51-57页
·特征项选取实验	第51-52页
·特征权值调整实验	第52-54页
·SVM 与 SVMAR 分类效果比较实验	第54-55页
·实验总结	第55-57页
第五章结论与展望	第57-59页
·总结	第57-58页
·进一步工作展望	第58-59页
参考文献	第59-63页
攻读硕士期间参加的课题和发表的论文	第63-64页
致谢	第64页