基于主题信息采集中网页分类系统研究

摘要	第1-4页
Abstract	第4-8页
第一章绪言	第8-11页
·课题研究背景	第8-10页
·问题的提出	第8-9页
·自动分类的研究简介	第9-10页
·本文研究内容	第10页
·本文安排	第10-11页
第二章相关技术综述	第11-28页
·Spider采集技术	第11-21页
·Spider研究	第11-12页
·Spider应用	第12页
·采集Web页面的Spider程序	第12-21页
·中文切分词技术	第21-25页
·汉语自动分词中的困难	第21-23页
·自动分词算法的分类	第23-25页
·中文文本分类技术	第25-28页
·文本分类概述	第25-26页
·文本分类的类型	第26页
·文本分类的模型	第26-28页
第三章总体设计	第28-31页
·基于主题信息采集中网页分类系统模型设计	第28页
·基于主题信息采集的网页分类系统模型的关键问题	第28-30页
·主题选择	第28页
·初始 URL选择	第28页
·Spider采集	第28页
·页面解析	第28-30页
·中文分词	第30页
·文本分类	第30页
·本论文创新点	第30-31页
第四章 Spider设计及页面解析	第31-42页
·Spider设计	第31-37页
·Spider采集	第32-33页
·Spider采集程序实现	第33-37页
·页面解析	第37-42页
·HTML页面解析	第37-40页
·页面解析后的存储	第40-42页
第五章中文分词与特征提取	第42-55页
·中文分词	第42-53页
·中文词典和停用词词典	第43页
·中文分词实现	第43-53页
·特征提取	第53-55页
·文本特征词的选取	第53页
·特征词选取的程序实现	第53-55页
第六章贝叶斯分类及其实现	第55-62页
·朴素贝叶斯模型	第55-56页
·对朴素贝叶斯模型的改进	第56页
·朴素贝叶斯分类器的实现	第56-60页
·朴素贝叶斯多元模型分类算法	第56-57页
·朴素贝叶斯多元模型分类器的实现	第57-60页
·朴素贝叶斯分类器的实践	第60-62页
·衡量指标	第60页
·测试及结果分析	第60-62页
第七章总结与展望	第62-63页
·本论文研究成果	第62页
·进一步的工作	第62-63页
致谢	第63-64页
参考文献	第64-69页
附录:攻读学位期间发表论文情况	第69页