基于分块特征抽取的大规模网页分类研究

内容提要	第1-7页
第一章绪论	第7-19页
·网页分类在Web数据挖掘中的意义	第7-11页
·Web数据挖掘	第7-9页
·网页分类在Web数据挖掘中的意义	第9-11页
·网页分类技术	第11-17页
·网页分类技术概述	第11-13页
·网页分类的历史和现状	第13-17页
·本文的主要研究内容和组织结构	第17-19页
第二章统计机器学习理论	第19-25页
·机器学习的基本问题	第19-21页
·机器学习问题的描述	第19-20页
·经验风险最小化	第20页
·经验风险的复杂性与推广能力	第20-21页
·统计学习理论	第21-24页
·VC维	第21-22页
·推广性的界	第22-23页
·结构风险最小化原则（SRM原则）	第23-24页
·小结	第24-25页
第三章基于分块的网页特征抽取	第25-38页
·网页的文本特征	第25-27页
·信息增益（InformationGain）	第26页
·词频和逆文档频（TF*IDF）	第26-27页
·网页的结构化特征	第27-29页
·HTML标记特征	第27-28页
·网页分块特征	第28-29页
·网页的分块	第29-33页
·Dom树	第29-30页
·可视化优先级Dom树（VisualPriorityDom Tree）	第30-31页
·分块的属性	第31-33页
·基于人工神经网络的网页分块	第33-36页
·基于分块的特征抽取方法	第36-38页
第四章基于层次式支持向量机的网页分类算法	第38-45页
·支持向量机	第38-42页
·最优分类平面	第38-40页
·支持向量机	第40-41页
·核函数	第41-42页
·多分类SVM方法	第42页
·层次式SVM方法	第42-45页
·水平分类法和层次式分类法	第42-43页
·层次式SVM的训练策略和参数的选择	第43-45页
第五章实验结果及分析	第45-51页
·网页分类的评价标准	第45-46页
·数据集分布情况	第46-47页
·分类准确度实验	第47-49页
·分类性能实验	第49页
·实验结果分析	第49-51页
第六章总结	第51-54页
·总结	第51-52页
·展望	第52-54页
参考文献	第54-57页
摘要	第57-60页
ABSTRACT	第60-63页
致谢	第63-64页
导师及作者简介	第64页