基于统计的中文新闻网页分类技术研究

摘要	第1-7页
Abstract	第7-8页
第一章绪论	第8-11页
·背景与意义	第8-9页
·课题的发展现状	第9-10页
·本文研究工作与内容安排	第10-11页
第二章文本分类技术概述	第11-21页
·文本分类的定义	第11-12页
·文本分类的过程	第12-15页
·预处理	第12页
·文本表示	第12-13页
·特征选取	第13-15页
·分类算法	第15-19页
·朴素贝叶斯(Na(l\|¨)ve Bayes)	第15-16页
·K-近邻(KNN)	第16-17页
·支持向量机(Support Vector Machines，SVM)	第17-19页
·文本分类的评估指标	第19页
·相关评测和相关资源	第19-20页
·中文新闻网页自动分类	第20-21页
第三章基于条件随机域的新闻网页信息提取	第21-30页
·网页的基本结构和特点	第21-22页
·网页基本结构	第21-22页
·网页特点分析	第22页
·网页的规范化处理	第22-23页
·条件随机域与网页内容预处理	第23-28页
·条件随机域模型(CRF)	第24页
·基于DOM的网页树型结构构建	第24-26页
·网页信息的标注过程	第26-28页
·特征选择	第28页
·实验	第28-30页
·实验数据与工具	第28-29页
·实验结果	第29-30页
第四章基于结构信息组合的中文新闻网页分类	第30-34页
·网页的结构信息和超链接信息	第30-31页
·网页内容的表示与特征权值设置	第31-32页
·实验及其结果分析	第32-34页
·实验设置	第32页
·不同网页表示形式的分类性能对比	第32-33页
·不同结构信息加权组合后的分类性能对比	第33-34页
第五章中文新闻网页分类中的特征选择方法	第34-39页
·特征选择	第34-35页
·特征抽取	第35-36页
·不同特征选择方法的分类实验	第36-39页
·分类器设计	第36-37页
·分类测试实验	第37-39页
总结与展望	第39-41页
参考文献	第41-43页
致谢	第43页