| 致谢 | 第1-6页 |
| 中文摘要 | 第6-7页 |
| ABSTRACT | 第7-12页 |
| 1 引言 | 第12-17页 |
| ·研究背景与意义 | 第12-13页 |
| ·文本信息过滤研究的现状 | 第13-15页 |
| ·本文研究的内容 | 第15-16页 |
| ·论文组织 | 第16-17页 |
| 2 文本信息过滤概述 | 第17-28页 |
| ·信息过滤的概念 | 第17-18页 |
| ·信息过滤系统的分类 | 第18-20页 |
| ·信息过滤和其他信息处理技术 | 第20-22页 |
| ·信息过滤与信息检索 | 第20-21页 |
| ·信息过滤与分类、聚类 | 第21页 |
| ·信息过滤和信息提取 | 第21-22页 |
| ·文本信息过滤模型 | 第22-26页 |
| ·布尔模型 | 第22-23页 |
| ·概率模型 | 第23页 |
| ·向量空间模型(Vector Space Model,VSM) | 第23-25页 |
| ·潜在语义索引模型 | 第25-26页 |
| ·信息过滤模型的评价指标 | 第26页 |
| ·文本信息过滤技术的应用 | 第26-28页 |
| 3 信息过滤相关技术 | 第28-45页 |
| ·信息过滤预处理过程 | 第28页 |
| ·中文分词技术 | 第28-32页 |
| ·基于字符串匹配的分词技术 | 第29-30页 |
| ·基于理解的分词技术 | 第30页 |
| ·基于统计的分词技术 | 第30-31页 |
| ·去除停用词 | 第31页 |
| ·分词中的技术难题 | 第31-32页 |
| ·特征选择技术 | 第32-37页 |
| ·特征频度(TermFrequency,TF) | 第33页 |
| ·文档频度(Document Frequency,DF) | 第33-34页 |
| ·反比文档频数权重评价方法(TermFrequencyInverse Document Frequency,TFIDF) | 第34页 |
| ·互信息(Mutual Information,MI) | 第34-35页 |
| ·χ~2统计量(Chi—square,CHI) | 第35页 |
| ·期望交叉熵(Expected Cross Entropy,CE) | 第35-36页 |
| ·信息增益(Information Gain,IG) | 第36页 |
| ·文本证据权(Weight of Evidence for Zext,WET) | 第36-37页 |
| ·几率比(Odds Ratio,OR) | 第37页 |
| ·文本的表示 | 第37-39页 |
| ·向量空间模型(Vector Space Model,VSM) | 第38-39页 |
| ·文本分类方法 | 第39-45页 |
| ·Naive Bayes方法 | 第41-42页 |
| ·K—近邻算法(KNN) | 第42-43页 |
| ·支持向量机(SVM) | 第43-44页 |
| ·神经网络 | 第44页 |
| ·决策树(Decision Tree) | 第44-45页 |
| 4 基于判别式Naive Bayes的文本分类方法 | 第45-53页 |
| ·贝叶斯文本分类方法 | 第45-46页 |
| ·贝叶斯文本分类算法的两种模型 | 第46-48页 |
| ·多变量贝努里事件模型 | 第46-47页 |
| ·多项式事件模型 | 第47-48页 |
| ·二分类NaiveBayes文本分类算法 | 第48-49页 |
| ·判别式Na(?)ve Bayes分类算法 | 第49-51页 |
| ·二分类判别式Na(?)ve Bayes文本分类算法 | 第51-53页 |
| 5 基于启发式规则与文本分类的多级信息过滤模型 | 第53-63页 |
| ·基于启发式规则的过滤方法的现状 | 第53-54页 |
| ·基于统计和基于规则的自动文本分类方法的分析 | 第54-55页 |
| ·基于启发式规则与文本分类相结合的多级信息过滤模型 | 第55-59页 |
| ·规则库的设计 | 第55-56页 |
| ·规则的设定 | 第56页 |
| ·规则表达式 | 第56-57页 |
| ·基于启发式规则与判别式NB文本分类相结合的信息过滤系统 | 第57-59页 |
| ·实验结果 | 第59-63页 |
| 6 结束语 | 第63-64页 |
| 参考文献 | 第64-67页 |
| 作者简历 | 第67-69页 |
| 学位论文数据集 | 第69页 |