摘要 | 第1-5页 |
Abstract | 第5-9页 |
1 绪论 | 第9-15页 |
·研究背景及意义 | 第9-10页 |
·垃圾网页的定义 | 第10页 |
·农业网站中的垃圾网页的定义 | 第10页 |
·把传统的模式识别方法应用于农业分类领域 | 第10-14页 |
·网页的清洗 | 第11页 |
·停词表的建立 | 第11-12页 |
·中文分词 | 第12页 |
·建立倒排索引 | 第12-13页 |
·特征提取 | 第13页 |
·选取最优的网页识别模式 | 第13页 |
·验证算法的精度以及准确性 | 第13-14页 |
·本文的主要研究内容 | 第14-15页 |
2 相关技术综述 | 第15-28页 |
·搜索引擎概述 | 第15-20页 |
·搜索引擎的分类 | 第15-16页 |
·搜索引擎的工作原理 | 第16-20页 |
·模式识别综述 | 第20-23页 |
·模式识别的定义以及应用 | 第20-21页 |
·模式识别的方法 | 第21-23页 |
·文本分类 | 第23-25页 |
·文本分类的起源与发展 | 第23-24页 |
·文本分类的定义 | 第24页 |
·文本分类过程的步骤 | 第24-25页 |
·文本分类的方法 | 第25页 |
·Java 概述 | 第25-26页 |
·Eclipse | 第26页 |
·Apache | 第26页 |
·PHP | 第26-27页 |
·MySQL | 第27-28页 |
3 利用多元线性回归方法识别农业类网页与非农业类网页 | 第28-37页 |
·爬取农业网站中的网页 | 第28页 |
·选择训练样本以及测试样本 | 第28页 |
·清洗训练样本 | 第28页 |
·中文分词 | 第28-29页 |
·建立倒排索引 | 第29页 |
·农业类网页的识别模型设计 | 第29页 |
·最小二乘法拟合多元线性回归 | 第29-30页 |
·网页分类的实现过程 | 第30-36页 |
·训练集与测试集的选取 | 第30页 |
·清洗网页 | 第30-31页 |
·分词 | 第31页 |
·建立倒排索引 | 第31页 |
·特征提取 | 第31-32页 |
·数据处理 | 第32-33页 |
·对分类器模型的测试 | 第33-36页 |
·小结 | 第36-37页 |
4 利用Fisher判别法识别农业类的网页与非农业类的网页 | 第37-55页 |
·Fisher方法的分类原理 | 第37页 |
·Fisher准则函数 | 第37-39页 |
·在 IK 分词的条件下利用文档频率获取特征值 | 第39-45页 |
·在IK分词的条件下利用卡方检验获取网页的特征值 | 第45-49页 |
·利用程序实现使用卡方检验获取网页的特征值 | 第45-49页 |
·基于庖丁解牛分词条件的文档频率获取网页特征值 | 第49-53页 |
·利用文档频率获取网页的特征值 | 第49-51页 |
·利用卡方检验获取网页的特征值 | 第51-53页 |
·小结 | 第53-55页 |
5 利用Bayes判别法识别农业类的网页与非农业类的网页 | 第55-64页 |
·贝叶斯定理 | 第55页 |
·贝叶斯决策理论 | 第55页 |
·朴素贝叶斯分类器 | 第55-56页 |
·利用SPSS软件中的Bayes 判别法 | 第56-58页 |
·使用IK中文分词软件获取网页的特征值 | 第56-58页 |
·Bayes 判别法与Fisher判别法的分类结果相同的原因 | 第58-60页 |
·Bayes判别法 | 第58-59页 |
·Fisher判别法的定理1 | 第59-60页 |
·Fisher判别法的定理2 | 第60页 |
·多元线性回归、Fisher、Bayes三种方法分类结果的比较 | 第60-62页 |
·小结 | 第62-64页 |
6 主体没有内容的垃圾网页过滤方法的实现 | 第64-82页 |
·获取网页中的中文内容 | 第64-66页 |
·建立停词表 | 第66-67页 |
·分词 | 第67页 |
·建立倒排索引 | 第67页 |
·特征提取 | 第67-76页 |
·测试 | 第76-78页 |
·文档频率与卡方检验对分类结果的影响 | 第78-81页 |
·小结 | 第81-82页 |
7 结束语 | 第82-84页 |
在读期间发表论文 | 第84-85页 |
参考文献 | 第85-87页 |
致谢 | 第87页 |