基于统计的文本分类技术研究
1 绪论 | 第1-32页 |
·研究背景 | 第14-15页 |
·应用领域 | 第15-18页 |
·冗余过滤 | 第16页 |
·组织管理 | 第16-17页 |
·智能检索 | 第17页 |
·信息过滤 | 第17-18页 |
·其它应用 | 第18页 |
·研究内容 | 第18-22页 |
·理论分析 | 第19页 |
·技术研究 | 第19-20页 |
·实验与应用 | 第20-22页 |
·研究现状 | 第22-30页 |
·分类算法 | 第23-24页 |
·典型分类系统 | 第24-30页 |
·论文组织 | 第30-32页 |
2 文本分类相关技术 | 第32-54页 |
·文本检索与文本分类 | 第32-34页 |
·自然语言处理 | 第34-38页 |
·自动分词 | 第35-37页 |
·N元模型 | 第37-38页 |
·分类体系 | 第38-41页 |
·等级列举式分类法 | 第39页 |
·主题组织法 | 第39页 |
·分面组配式分类法 | 第39-40页 |
·存在的问题 | 第40-41页 |
·模式识别算法 | 第41-45页 |
·预处理 | 第41-42页 |
·主要算法 | 第42-45页 |
·文本分类系统 | 第45-54页 |
·系统结构 | 第47-48页 |
·分类系统评价 | 第48-54页 |
3 文本特征选择 | 第54-74页 |
·特征降维方法 | 第54-57页 |
·文档频次方法 | 第54页 |
·互信息方法 | 第54-55页 |
·信息熵方法 | 第55-56页 |
·x~2统计量方法 | 第56-57页 |
·特征降维实验 | 第57-64页 |
·降维实验 | 第57-59页 |
·冗余文档检测实验 | 第59-62页 |
·N元模型实验 | 第62-64页 |
·案例分析:基于内容的信息推荐系统 | 第64-74页 |
·整体架构 | 第65-68页 |
·实现步骤 | 第68-72页 |
·测试 | 第72-74页 |
4 权重计算 | 第74-96页 |
·常用权重计算公式 | 第74-78页 |
·布尔权重 | 第74-75页 |
·TFIDF型权重 | 第75-78页 |
·基于熵概念的权重 | 第78页 |
·权重函数测试 | 第78-86页 |
·矛盾分析 | 第79-81页 |
·特征项综合赋权方法 | 第81-82页 |
·分类测试 | 第82-86页 |
·案例分析:物理学科网站分类 | 第86-96页 |
·物理文摘统计报表 | 第89-90页 |
·网站数据统计报表 | 第90-91页 |
·文摘与网站的比较 | 第91-94页 |
·问题分析 | 第94页 |
·加入网站数据分类测试 | 第94-96页 |
5 分类器构建 | 第96-116页 |
·常用算法分析 | 第96-101页 |
·Rocchio算法 | 第96-97页 |
·K近邻分类器 | 第97-98页 |
·SVM分类器 | 第98-101页 |
·分类算法测试 | 第101-106页 |
·分类正确率比较 | 第103-104页 |
·时间复杂度比较 | 第104-106页 |
·案例分析:TREC2002文本过滤比赛 | 第106-116页 |
·TREC文本检索会议 | 第106页 |
·文本过滤的任务定义 | 第106-107页 |
·文本过滤系统结构 | 第107-111页 |
·测试结果及分析 | 第111-113页 |
·系统特点 | 第113-116页 |
6 结束语 | 第116-118页 |
·研究工作 | 第116-117页 |
·文本检索与文本分类 | 第116页 |
·文本分类与分类体系 | 第116页 |
·文本分类评价指标 | 第116页 |
·文本分类算法研究 | 第116-117页 |
·应用系统 | 第117页 |
·下一步工作 | 第117-118页 |
参考文献 | 第118-126页 |
发表论著目录 | 第126-127页 |
致谢 | 第127-128页 |
作者简介 | 第128页 |