致谢 | 第1-6页 |
中文摘要 | 第6-7页 |
ABSTRACT | 第7-12页 |
1 引言 | 第12-17页 |
·研究背景与意义 | 第12-13页 |
·文本信息过滤研究的现状 | 第13-15页 |
·本文研究的内容 | 第15-16页 |
·论文组织 | 第16-17页 |
2 文本信息过滤概述 | 第17-28页 |
·信息过滤的概念 | 第17-18页 |
·信息过滤系统的分类 | 第18-20页 |
·信息过滤和其他信息处理技术 | 第20-22页 |
·信息过滤与信息检索 | 第20-21页 |
·信息过滤与分类、聚类 | 第21页 |
·信息过滤和信息提取 | 第21-22页 |
·文本信息过滤模型 | 第22-26页 |
·布尔模型 | 第22-23页 |
·概率模型 | 第23页 |
·向量空间模型(Vector Space Model,VSM) | 第23-25页 |
·潜在语义索引模型 | 第25-26页 |
·信息过滤模型的评价指标 | 第26页 |
·文本信息过滤技术的应用 | 第26-28页 |
3 信息过滤相关技术 | 第28-45页 |
·信息过滤预处理过程 | 第28页 |
·中文分词技术 | 第28-32页 |
·基于字符串匹配的分词技术 | 第29-30页 |
·基于理解的分词技术 | 第30页 |
·基于统计的分词技术 | 第30-31页 |
·去除停用词 | 第31页 |
·分词中的技术难题 | 第31-32页 |
·特征选择技术 | 第32-37页 |
·特征频度(TermFrequency,TF) | 第33页 |
·文档频度(Document Frequency,DF) | 第33-34页 |
·反比文档频数权重评价方法(TermFrequencyInverse Document Frequency,TFIDF) | 第34页 |
·互信息(Mutual Information,MI) | 第34-35页 |
·χ~2统计量(Chi—square,CHI) | 第35页 |
·期望交叉熵(Expected Cross Entropy,CE) | 第35-36页 |
·信息增益(Information Gain,IG) | 第36页 |
·文本证据权(Weight of Evidence for Zext,WET) | 第36-37页 |
·几率比(Odds Ratio,OR) | 第37页 |
·文本的表示 | 第37-39页 |
·向量空间模型(Vector Space Model,VSM) | 第38-39页 |
·文本分类方法 | 第39-45页 |
·Naive Bayes方法 | 第41-42页 |
·K—近邻算法(KNN) | 第42-43页 |
·支持向量机(SVM) | 第43-44页 |
·神经网络 | 第44页 |
·决策树(Decision Tree) | 第44-45页 |
4 基于判别式Naive Bayes的文本分类方法 | 第45-53页 |
·贝叶斯文本分类方法 | 第45-46页 |
·贝叶斯文本分类算法的两种模型 | 第46-48页 |
·多变量贝努里事件模型 | 第46-47页 |
·多项式事件模型 | 第47-48页 |
·二分类NaiveBayes文本分类算法 | 第48-49页 |
·判别式Na(?)ve Bayes分类算法 | 第49-51页 |
·二分类判别式Na(?)ve Bayes文本分类算法 | 第51-53页 |
5 基于启发式规则与文本分类的多级信息过滤模型 | 第53-63页 |
·基于启发式规则的过滤方法的现状 | 第53-54页 |
·基于统计和基于规则的自动文本分类方法的分析 | 第54-55页 |
·基于启发式规则与文本分类相结合的多级信息过滤模型 | 第55-59页 |
·规则库的设计 | 第55-56页 |
·规则的设定 | 第56页 |
·规则表达式 | 第56-57页 |
·基于启发式规则与判别式NB文本分类相结合的信息过滤系统 | 第57-59页 |
·实验结果 | 第59-63页 |
6 结束语 | 第63-64页 |
参考文献 | 第64-67页 |
作者简历 | 第67-69页 |
学位论文数据集 | 第69页 |