中文网页获取及自动分类技术研究

摘要	第1-5页
Abstract	第5-10页
第1章引言	第10-14页
·课题背景	第10-11页
·国内外研究现状	第11-12页
·本文拟解决的关键性问题	第12页
·本文所做的工作	第12-14页
第2章网页自动获取	第14-32页
·网页自动获取流程	第14-16页
·关于Google Web API	第16-24页
·Google APIs的主要方法和约束条件	第16-17页
·Google APIs的约束条件	第17-18页
·用Google Web API构建Java应用程序	第18-24页
·构造正则表达式	第24-28页
·使用正则表达式	第25-26页
·正则表达式语法	第26-27页
·使用正则表达式匹配出网页中包含的URL	第27-28页
·获取网页实验结果	第28-32页
·创建一个简单搜索的实验结果	第28-29页
·获取URL实验结果	第29-30页
·获取网页的搜索结果	第30页
·使用正则表达式匹配出网页中的URL实验结果	第30-31页
·小结	第31-32页
第3章网页预处理	第32-40页
·网页清洗	第32-33页
·网页清洗方法	第32-33页
·网页清洗的实现	第33页
·中文分词技术	第33-40页
·中文自动分词的研究与发展现状	第33-34页
·中文词的特点	第34-35页
·中文分词技术	第35-38页
·中文分词系统ICTCLAS介绍	第38-40页
第4章特征词提取方法	第40-54页
·中文文本特征表示模型	第40-44页
·布尔模型	第40-41页
·概率模型	第41-42页
·向量空间模型	第42-44页
·特征词提取概述	第44-47页
·定义	第44页
·文本特征提取的发展	第44-45页
·文本特征表示方法	第45-47页
·特征词提取方法介绍	第47-48页
·基于词性的特征词提取方法	第48-51页
·降低特征向量维数	第51-52页
·特征词权重的计算	第52-53页
·特征提取算法实验结果	第53-54页
第5章中文网页分类方法研究	第54-69页
·中文网页自动分类过程	第54-55页
·文本自动分类算法类型介绍	第55-56页
·训练库的建立	第56-58页
·文本相似度算法研究	第58-62页
·简单向量距离分类方法	第58页
·贝叶斯分类方法	第58-59页
·决策树分类法	第59-60页
·支持向量机分类算法	第60-61页
·KNN(K最近邻)分类算法	第61-62页
·改进的KNN算法研究	第62-63页
·评估方法	第63-64页
·实验结果	第64-69页
第6章结束语	第69-71页
·总结	第69-70页
·今后工作的展望	第70-71页
参考文献	第71-74页
致谢	第74-75页
攻读硕士研究生期间所发表的论文	第75页