提要 | 第1-10页 |
第一章 绪论 | 第10-28页 |
§1.1 文本分类的国内外研究现状 | 第10-12页 |
§1.2 文本分类的简单介绍 | 第12-15页 |
§1.3 常用的几种分类器的介绍 | 第15-18页 |
§1.4 文本分类结果的评价方法 | 第18-20页 |
§1.5 应用实例简介-市长公开电话 | 第20-25页 |
§1.5.1 市长公开电话简介 | 第20-22页 |
§1.5.2 市长公开电话流程图 | 第22-23页 |
§1.5.3 实行自动文本分类的意义和必要性 | 第23-24页 |
§1.5.4 市长公开电话投诉文本的自身特点 | 第24-25页 |
§1.6 本文的内容和结构 | 第25-28页 |
第二章 文本文档的表示 | 第28-40页 |
§2.1 汉字的机内码 | 第28-29页 |
§2.2 疑难字的输入 | 第29-30页 |
§2.2.1 问题的提出 | 第29页 |
§2.2.2 解决的方法 | 第29-30页 |
§2.3 分词预处理 | 第30-33页 |
§2.3.1 基于字典、词库匹配的分词方法 | 第31页 |
§2.3.2 基于理解的分词方法 | 第31-32页 |
§2.3.3 基于统计的分词方法 | 第32-33页 |
§2.4 向量空间模型 | 第33-35页 |
§2.4.1 向量空间模型的基本思想 | 第33-34页 |
§2.4.2 常用的词条权重表示法 | 第34-35页 |
§2.5 市长公开电话文本的表示 | 第35-39页 |
§2.5.1 市长公开电话文本的切分 | 第35页 |
§2.5.2 获取未登录词的一种方法 | 第35-38页 |
§2.5.3 提取投诉数据中的套话 | 第38-39页 |
§2.6 小结 | 第39-40页 |
第三章 特征选择和特征提取 | 第40-56页 |
§3.1 特征选择的几种常用方法 | 第40-43页 |
§3.1.1 停用词和低频词 | 第40-41页 |
§3.1.2 互信息 | 第41-42页 |
§3.1.3 优比 | 第42页 |
§3.1.4 卡方统计量 | 第42-43页 |
§3.2 特征选择在市长公开电话上的应用 | 第43-53页 |
§3.2.1 基于卡方统计量的停用词提取 | 第43-50页 |
§3.2.2 卡方与优比结合的特征选择方法 | 第50-52页 |
§3.2.3 低频词的删除 | 第52-53页 |
§3.3 特征抽取 | 第53-54页 |
§3.3.1 隐性语义索引 | 第54页 |
§3.3.2 词条聚类 | 第54页 |
§3.4 小结 | 第54-56页 |
第四章 汉语文本分类器的设计 | 第56-74页 |
§4.1 朴素贝叶斯分类器 | 第56-61页 |
§4.1.1 朴素贝叶斯分类器模型 | 第56-57页 |
§4.1.2 在市长公开电话上的应用 | 第57-61页 |
§4.2 基于多重假设检验的特征加权朴素贝叶斯分类器 | 第61-65页 |
§4.2.1 基于多重假设检验的特征加权系数的确定 | 第61-63页 |
§4.2.2 在市长公开电话数据集上的应用 | 第63-65页 |
§4.3 基于地域信息的文本分类层次结构模型 | 第65-69页 |
§4.4 基于分类委员会的文本分类模型 | 第69-71页 |
§4.5 基于朴素贝叶斯的多级分类器 | 第71-72页 |
§4.6 数据对分类器的性能影响 | 第72-73页 |
§4.7 小结 | 第73-74页 |
第五章 信息综合管理系统控制平台 | 第74-106页 |
§5.1 引言 | 第74-75页 |
§5.2 平台系统数学模型的构建 | 第75-81页 |
§5.2.1 平台系统的数学抽象 | 第76-77页 |
§5.2.2 数据集的有序化 | 第77-78页 |
§5.2.3 控制集的有序化 | 第78-79页 |
§5.2.4 平台系统的构成 | 第79-81页 |
§5.3 平台系统的设计原理 | 第81-85页 |
§5.4 平台语言的通用指令集 | 第85-90页 |
§5.4.1 基础类指令 | 第85-86页 |
§5.4.2 数据库类 | 第86页 |
§5.4.3 文本操作类 | 第86页 |
§5.4.4 网络信息发布类指令 | 第86页 |
§5.4.5 多参数数据输入类 | 第86页 |
§5.4.6 列表模式 | 第86-87页 |
§5.4.7 图文模式 | 第87-88页 |
§5.4.8 码表模式 | 第88页 |
§5.4.9 Word文档、Excel电子表格模式 | 第88-89页 |
§5.4.10 自动化控制 | 第89-90页 |
§5.5 平台系统的算法实现 | 第90-92页 |
§5.6 平台系统的权限管理与安全机制 | 第92-94页 |
§5.7 平台系统指令集的优化 | 第94-97页 |
§5.7.1 指令效率分析 | 第94-95页 |
§5.7.2 指令集优化后的执行效果 | 第95页 |
§5.7.3 平台系统的优缺点 | 第95-97页 |
§5.8 平台在市长公开电话中的应用 | 第97-104页 |
§5.8.1 市长公开电话受理系统 | 第97-98页 |
§5.8.2 全自动单位分类机 | 第98-100页 |
§5.8.3 全自动行业分类机 | 第100-101页 |
§5.8.4 统计分析系统 | 第101-102页 |
§5.8.5 文档自动生成系统 | 第102-103页 |
§5.8.6 单位预警预报和行业预警预报 | 第103-104页 |
§5.9 小结 | 第104-106页 |
结论 | 第106-110页 |
参考文献 | 第110-117页 |
附录 | 第117-124页 |
附录1 平台系统的指令集列表 | 第117-120页 |
附录2 疑难汉字速查软件界面(网络版页面) | 第120页 |
附录3 疑难汉字速查软件界面(单机版页面) | 第120-121页 |
附录4 计算机软机著作权登记证书-信息综合管理系统控制平台 | 第121页 |
附录5 计算机软机著作权登记证书-疑难汉字速查软件 | 第121-122页 |
附录6 分类机工作界面 | 第122页 |
附录7 统计分析与预警预报工作界面 | 第122-123页 |
附录8 统计分析与预警预报网站界面 | 第123页 |
附录9 大屏幕演示控制系统网站界面 | 第123-124页 |
攻读博士期间发表及待发的学术论文 | 第124-126页 |
中文摘要 | 第126-134页 |
ABSTRACT | 第134-144页 |
致谢 | 第144页 |