汉语文本数据挖掘--基于市长公开电话数据库的统计分析
| 提要 | 第1-8页 |
| 第一章 汉语文本数据特点分析 | 第8-26页 |
| ·研究的背景和意义 | 第8-9页 |
| ·文本分类概述 | 第9-18页 |
| ·市长公开电话数据集简介 | 第18-20页 |
| ·市长公开电话词库的构建 | 第20-22页 |
| ·市长公开电话词频曲线拟合 | 第22-26页 |
| 第二章 热点问题数据挖掘 | 第26-54页 |
| ·热点问题背景及意义 | 第26-27页 |
| ·热点词的抽取方法 | 第27-32页 |
| ·热点词的定义 | 第27-28页 |
| ·停用词的抽取方法 | 第28-30页 |
| ·热点词的特征选择 | 第30-32页 |
| ·热点词的抽取结果及其分析 | 第32-40页 |
| ·热点词的聚类分析 | 第40-46页 |
| ·热点词的变量聚类过程 | 第41-42页 |
| ·热点词的变量聚类结果分析 | 第42-46页 |
| ·确定聚类数目的一种方法 | 第46-54页 |
| 第三章 汉语文本分类器 | 第54-94页 |
| ·朴素贝叶斯分类器 | 第54-60页 |
| ·改进的朴素贝叶斯分类器 | 第60-65页 |
| ·分类类别与时间的独立性的检验 | 第60-61页 |
| ·基于时序数据的朴素贝叶斯分类器模型 | 第61-65页 |
| ·基于加权的朴素贝叶斯分类器 | 第65-69页 |
| ·权重计算方法 | 第66-68页 |
| ·在市长公开电话上的应用 | 第68-69页 |
| ·支持向量机分类器 | 第69-81页 |
| ·支持向量机分类算法 | 第69-74页 |
| ·在市长公开电话上的应用 | 第74-81页 |
| ·支持向量机并行处理策略 | 第81-84页 |
| ·基于规则的得分法文本分类器 | 第84-94页 |
| ·基于二项检验的特征词提取 | 第84-86页 |
| ·基于词频的特征词词组提取 | 第86-94页 |
| 第四章 基于任务驱动的并行分类算法 | 第94-123页 |
| ·任务驱动的并行算法 | 第94-96页 |
| ·决策树分类器模型 | 第96-103页 |
| ·决策树分类算法 | 第96-98页 |
| ·任务驱动的决策树并行学习算法 | 第98-101页 |
| ·在市长公开电话上的应用 | 第101-103页 |
| ·基于并行计算的贝叶斯多网学习 | 第103-116页 |
| ·贝叶斯多网的简介 | 第104-109页 |
| ·贝叶斯网的层次结构 | 第109-111页 |
| ·卡方序K2并行算法构建贝叶斯多网 | 第111-114页 |
| ·在市长公开电话中的应用 | 第114-116页 |
| ·基于因果关系的生物神经网络初探 | 第116-123页 |
| 结论 | 第123-125页 |
| 参考文献 | 第125-134页 |
| 附录 | 第134-151页 |
| 附录1 并行C和C++程序模块的简易调试环境 | 第134-136页 |
| 附录2 计算素数的并行程序(标准模板) | 第136-137页 |
| 附录3 决策树构建的并行C++程序 | 第137-143页 |
| 附录4 贝叶斯网构建的并行C程序模块 | 第143-148页 |
| 附录5 基于遗传算法定序的课程贝叶斯网构建 | 第148-151页 |
| 攻博期间发表和录用的学术论文及其他成果 | 第151-152页 |
| 中文摘要 | 第152-160页 |
| ABSTRACT | 第160-170页 |
| 致谢 | 第170页 |