首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

农业网站中垃圾网页过滤方法的研究

摘要第1-5页
Abstract第5-9页
1 绪论第9-15页
   ·研究背景及意义第9-10页
   ·垃圾网页的定义第10页
   ·农业网站中的垃圾网页的定义第10页
   ·把传统的模式识别方法应用于农业分类领域第10-14页
     ·网页的清洗第11页
     ·停词表的建立第11-12页
     ·中文分词第12页
     ·建立倒排索引第12-13页
     ·特征提取第13页
     ·选取最优的网页识别模式第13页
     ·验证算法的精度以及准确性第13-14页
   ·本文的主要研究内容第14-15页
2 相关技术综述第15-28页
   ·搜索引擎概述第15-20页
     ·搜索引擎的分类第15-16页
     ·搜索引擎的工作原理第16-20页
   ·模式识别综述第20-23页
     ·模式识别的定义以及应用第20-21页
     ·模式识别的方法第21-23页
   ·文本分类第23-25页
     ·文本分类的起源与发展第23-24页
     ·文本分类的定义第24页
     ·文本分类过程的步骤第24-25页
     ·文本分类的方法第25页
   ·Java 概述第25-26页
   ·Eclipse第26页
   ·Apache第26页
   ·PHP第26-27页
   ·MySQL第27-28页
3 利用多元线性回归方法识别农业类网页与非农业类网页第28-37页
   ·爬取农业网站中的网页第28页
   ·选择训练样本以及测试样本第28页
   ·清洗训练样本第28页
   ·中文分词第28-29页
   ·建立倒排索引第29页
   ·农业类网页的识别模型设计第29页
   ·最小二乘法拟合多元线性回归第29-30页
   ·网页分类的实现过程第30-36页
     ·训练集与测试集的选取第30页
     ·清洗网页第30-31页
     ·分词第31页
     ·建立倒排索引第31页
     ·特征提取第31-32页
     ·数据处理第32-33页
     ·对分类器模型的测试第33-36页
   ·小结第36-37页
4 利用Fisher判别法识别农业类的网页与非农业类的网页第37-55页
   ·Fisher方法的分类原理第37页
   ·Fisher准则函数第37-39页
   ·在 IK 分词的条件下利用文档频率获取特征值第39-45页
   ·在IK分词的条件下利用卡方检验获取网页的特征值第45-49页
     ·利用程序实现使用卡方检验获取网页的特征值第45-49页
   ·基于庖丁解牛分词条件的文档频率获取网页特征值第49-53页
     ·利用文档频率获取网页的特征值第49-51页
     ·利用卡方检验获取网页的特征值第51-53页
   ·小结第53-55页
5 利用Bayes判别法识别农业类的网页与非农业类的网页第55-64页
   ·贝叶斯定理第55页
   ·贝叶斯决策理论第55页
   ·朴素贝叶斯分类器第55-56页
   ·利用SPSS软件中的Bayes 判别法第56-58页
     ·使用IK中文分词软件获取网页的特征值第56-58页
   ·Bayes 判别法与Fisher判别法的分类结果相同的原因第58-60页
     ·Bayes判别法第58-59页
     ·Fisher判别法的定理1第59-60页
     ·Fisher判别法的定理2第60页
   ·多元线性回归、Fisher、Bayes三种方法分类结果的比较第60-62页
   ·小结第62-64页
6 主体没有内容的垃圾网页过滤方法的实现第64-82页
   ·获取网页中的中文内容第64-66页
   ·建立停词表第66-67页
   ·分词第67页
   ·建立倒排索引第67页
   ·特征提取第67-76页
   ·测试第76-78页
   ·文档频率与卡方检验对分类结果的影响第78-81页
   ·小结第81-82页
7 结束语第82-84页
在读期间发表论文第84-85页
参考文献第85-87页
致谢第87页

论文共87页,点击 下载论文
上一篇:基于统计的维吾尔网页自动摘要提取研究
下一篇:基于后缀树的维吾尔文网页聚类算法的设计与实现