农业网站中垃圾网页过滤方法的研究

摘要	第1-5页
Abstract	第5-9页
1 绪论	第9-15页
·研究背景及意义	第9-10页
·垃圾网页的定义	第10页
·农业网站中的垃圾网页的定义	第10页
·把传统的模式识别方法应用于农业分类领域	第10-14页
·网页的清洗	第11页
·停词表的建立	第11-12页
·中文分词	第12页
·建立倒排索引	第12-13页
·特征提取	第13页
·选取最优的网页识别模式	第13页
·验证算法的精度以及准确性	第13-14页
·本文的主要研究内容	第14-15页
2 相关技术综述	第15-28页
·搜索引擎概述	第15-20页
·搜索引擎的分类	第15-16页
·搜索引擎的工作原理	第16-20页
·模式识别综述	第20-23页
·模式识别的定义以及应用	第20-21页
·模式识别的方法	第21-23页
·文本分类	第23-25页
·文本分类的起源与发展	第23-24页
·文本分类的定义	第24页
·文本分类过程的步骤	第24-25页
·文本分类的方法	第25页
·Java 概述	第25-26页
·Eclipse	第26页
·Apache	第26页
·PHP	第26-27页
·MySQL	第27-28页
3 利用多元线性回归方法识别农业类网页与非农业类网页	第28-37页
·爬取农业网站中的网页	第28页
·选择训练样本以及测试样本	第28页
·清洗训练样本	第28页
·中文分词	第28-29页
·建立倒排索引	第29页
·农业类网页的识别模型设计	第29页
·最小二乘法拟合多元线性回归	第29-30页
·网页分类的实现过程	第30-36页
·训练集与测试集的选取	第30页
·清洗网页	第30-31页
·分词	第31页
·建立倒排索引	第31页
·特征提取	第31-32页
·数据处理	第32-33页
·对分类器模型的测试	第33-36页
·小结	第36-37页
4 利用Fisher判别法识别农业类的网页与非农业类的网页	第37-55页
·Fisher方法的分类原理	第37页
·Fisher准则函数	第37-39页
·在 IK 分词的条件下利用文档频率获取特征值	第39-45页
·在IK分词的条件下利用卡方检验获取网页的特征值	第45-49页
·利用程序实现使用卡方检验获取网页的特征值	第45-49页
·基于庖丁解牛分词条件的文档频率获取网页特征值	第49-53页
·利用文档频率获取网页的特征值	第49-51页
·利用卡方检验获取网页的特征值	第51-53页
·小结	第53-55页
5 利用Bayes判别法识别农业类的网页与非农业类的网页	第55-64页
·贝叶斯定理	第55页
·贝叶斯决策理论	第55页
·朴素贝叶斯分类器	第55-56页
·利用SPSS软件中的Bayes 判别法	第56-58页
·使用IK中文分词软件获取网页的特征值	第56-58页
·Bayes 判别法与Fisher判别法的分类结果相同的原因	第58-60页
·Bayes判别法	第58-59页
·Fisher判别法的定理1	第59-60页
·Fisher判别法的定理2	第60页
·多元线性回归、Fisher、Bayes三种方法分类结果的比较	第60-62页
·小结	第62-64页
6 主体没有内容的垃圾网页过滤方法的实现	第64-82页
·获取网页中的中文内容	第64-66页
·建立停词表	第66-67页
·分词	第67页
·建立倒排索引	第67页
·特征提取	第67-76页
·测试	第76-78页
·文档频率与卡方检验对分类结果的影响	第78-81页
·小结	第81-82页
7 结束语	第82-84页
在读期间发表论文	第84-85页
参考文献	第85-87页
致谢	第87页