| 摘要 | 第1-5页 |
| Abstract | 第5-9页 |
| 1 绪论 | 第9-15页 |
| ·研究背景及意义 | 第9-10页 |
| ·垃圾网页的定义 | 第10页 |
| ·农业网站中的垃圾网页的定义 | 第10页 |
| ·把传统的模式识别方法应用于农业分类领域 | 第10-14页 |
| ·网页的清洗 | 第11页 |
| ·停词表的建立 | 第11-12页 |
| ·中文分词 | 第12页 |
| ·建立倒排索引 | 第12-13页 |
| ·特征提取 | 第13页 |
| ·选取最优的网页识别模式 | 第13页 |
| ·验证算法的精度以及准确性 | 第13-14页 |
| ·本文的主要研究内容 | 第14-15页 |
| 2 相关技术综述 | 第15-28页 |
| ·搜索引擎概述 | 第15-20页 |
| ·搜索引擎的分类 | 第15-16页 |
| ·搜索引擎的工作原理 | 第16-20页 |
| ·模式识别综述 | 第20-23页 |
| ·模式识别的定义以及应用 | 第20-21页 |
| ·模式识别的方法 | 第21-23页 |
| ·文本分类 | 第23-25页 |
| ·文本分类的起源与发展 | 第23-24页 |
| ·文本分类的定义 | 第24页 |
| ·文本分类过程的步骤 | 第24-25页 |
| ·文本分类的方法 | 第25页 |
| ·Java 概述 | 第25-26页 |
| ·Eclipse | 第26页 |
| ·Apache | 第26页 |
| ·PHP | 第26-27页 |
| ·MySQL | 第27-28页 |
| 3 利用多元线性回归方法识别农业类网页与非农业类网页 | 第28-37页 |
| ·爬取农业网站中的网页 | 第28页 |
| ·选择训练样本以及测试样本 | 第28页 |
| ·清洗训练样本 | 第28页 |
| ·中文分词 | 第28-29页 |
| ·建立倒排索引 | 第29页 |
| ·农业类网页的识别模型设计 | 第29页 |
| ·最小二乘法拟合多元线性回归 | 第29-30页 |
| ·网页分类的实现过程 | 第30-36页 |
| ·训练集与测试集的选取 | 第30页 |
| ·清洗网页 | 第30-31页 |
| ·分词 | 第31页 |
| ·建立倒排索引 | 第31页 |
| ·特征提取 | 第31-32页 |
| ·数据处理 | 第32-33页 |
| ·对分类器模型的测试 | 第33-36页 |
| ·小结 | 第36-37页 |
| 4 利用Fisher判别法识别农业类的网页与非农业类的网页 | 第37-55页 |
| ·Fisher方法的分类原理 | 第37页 |
| ·Fisher准则函数 | 第37-39页 |
| ·在 IK 分词的条件下利用文档频率获取特征值 | 第39-45页 |
| ·在IK分词的条件下利用卡方检验获取网页的特征值 | 第45-49页 |
| ·利用程序实现使用卡方检验获取网页的特征值 | 第45-49页 |
| ·基于庖丁解牛分词条件的文档频率获取网页特征值 | 第49-53页 |
| ·利用文档频率获取网页的特征值 | 第49-51页 |
| ·利用卡方检验获取网页的特征值 | 第51-53页 |
| ·小结 | 第53-55页 |
| 5 利用Bayes判别法识别农业类的网页与非农业类的网页 | 第55-64页 |
| ·贝叶斯定理 | 第55页 |
| ·贝叶斯决策理论 | 第55页 |
| ·朴素贝叶斯分类器 | 第55-56页 |
| ·利用SPSS软件中的Bayes 判别法 | 第56-58页 |
| ·使用IK中文分词软件获取网页的特征值 | 第56-58页 |
| ·Bayes 判别法与Fisher判别法的分类结果相同的原因 | 第58-60页 |
| ·Bayes判别法 | 第58-59页 |
| ·Fisher判别法的定理1 | 第59-60页 |
| ·Fisher判别法的定理2 | 第60页 |
| ·多元线性回归、Fisher、Bayes三种方法分类结果的比较 | 第60-62页 |
| ·小结 | 第62-64页 |
| 6 主体没有内容的垃圾网页过滤方法的实现 | 第64-82页 |
| ·获取网页中的中文内容 | 第64-66页 |
| ·建立停词表 | 第66-67页 |
| ·分词 | 第67页 |
| ·建立倒排索引 | 第67页 |
| ·特征提取 | 第67-76页 |
| ·测试 | 第76-78页 |
| ·文档频率与卡方检验对分类结果的影响 | 第78-81页 |
| ·小结 | 第81-82页 |
| 7 结束语 | 第82-84页 |
| 在读期间发表论文 | 第84-85页 |
| 参考文献 | 第85-87页 |
| 致谢 | 第87页 |