基于统计的文本分类技术研究
| 1 绪论 | 第1-32页 |
| ·研究背景 | 第14-15页 |
| ·应用领域 | 第15-18页 |
| ·冗余过滤 | 第16页 |
| ·组织管理 | 第16-17页 |
| ·智能检索 | 第17页 |
| ·信息过滤 | 第17-18页 |
| ·其它应用 | 第18页 |
| ·研究内容 | 第18-22页 |
| ·理论分析 | 第19页 |
| ·技术研究 | 第19-20页 |
| ·实验与应用 | 第20-22页 |
| ·研究现状 | 第22-30页 |
| ·分类算法 | 第23-24页 |
| ·典型分类系统 | 第24-30页 |
| ·论文组织 | 第30-32页 |
| 2 文本分类相关技术 | 第32-54页 |
| ·文本检索与文本分类 | 第32-34页 |
| ·自然语言处理 | 第34-38页 |
| ·自动分词 | 第35-37页 |
| ·N元模型 | 第37-38页 |
| ·分类体系 | 第38-41页 |
| ·等级列举式分类法 | 第39页 |
| ·主题组织法 | 第39页 |
| ·分面组配式分类法 | 第39-40页 |
| ·存在的问题 | 第40-41页 |
| ·模式识别算法 | 第41-45页 |
| ·预处理 | 第41-42页 |
| ·主要算法 | 第42-45页 |
| ·文本分类系统 | 第45-54页 |
| ·系统结构 | 第47-48页 |
| ·分类系统评价 | 第48-54页 |
| 3 文本特征选择 | 第54-74页 |
| ·特征降维方法 | 第54-57页 |
| ·文档频次方法 | 第54页 |
| ·互信息方法 | 第54-55页 |
| ·信息熵方法 | 第55-56页 |
| ·x~2统计量方法 | 第56-57页 |
| ·特征降维实验 | 第57-64页 |
| ·降维实验 | 第57-59页 |
| ·冗余文档检测实验 | 第59-62页 |
| ·N元模型实验 | 第62-64页 |
| ·案例分析:基于内容的信息推荐系统 | 第64-74页 |
| ·整体架构 | 第65-68页 |
| ·实现步骤 | 第68-72页 |
| ·测试 | 第72-74页 |
| 4 权重计算 | 第74-96页 |
| ·常用权重计算公式 | 第74-78页 |
| ·布尔权重 | 第74-75页 |
| ·TFIDF型权重 | 第75-78页 |
| ·基于熵概念的权重 | 第78页 |
| ·权重函数测试 | 第78-86页 |
| ·矛盾分析 | 第79-81页 |
| ·特征项综合赋权方法 | 第81-82页 |
| ·分类测试 | 第82-86页 |
| ·案例分析:物理学科网站分类 | 第86-96页 |
| ·物理文摘统计报表 | 第89-90页 |
| ·网站数据统计报表 | 第90-91页 |
| ·文摘与网站的比较 | 第91-94页 |
| ·问题分析 | 第94页 |
| ·加入网站数据分类测试 | 第94-96页 |
| 5 分类器构建 | 第96-116页 |
| ·常用算法分析 | 第96-101页 |
| ·Rocchio算法 | 第96-97页 |
| ·K近邻分类器 | 第97-98页 |
| ·SVM分类器 | 第98-101页 |
| ·分类算法测试 | 第101-106页 |
| ·分类正确率比较 | 第103-104页 |
| ·时间复杂度比较 | 第104-106页 |
| ·案例分析:TREC2002文本过滤比赛 | 第106-116页 |
| ·TREC文本检索会议 | 第106页 |
| ·文本过滤的任务定义 | 第106-107页 |
| ·文本过滤系统结构 | 第107-111页 |
| ·测试结果及分析 | 第111-113页 |
| ·系统特点 | 第113-116页 |
| 6 结束语 | 第116-118页 |
| ·研究工作 | 第116-117页 |
| ·文本检索与文本分类 | 第116页 |
| ·文本分类与分类体系 | 第116页 |
| ·文本分类评价指标 | 第116页 |
| ·文本分类算法研究 | 第116-117页 |
| ·应用系统 | 第117页 |
| ·下一步工作 | 第117-118页 |
| 参考文献 | 第118-126页 |
| 发表论著目录 | 第126-127页 |
| 致谢 | 第127-128页 |
| 作者简介 | 第128页 |