首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--程序设计论文

文本挖掘若干关键技术研究

目录第1-8页
摘要第8-10页
ABSTRACT第10-12页
第一章 绪论第12-26页
 1.1 研究背景第12-14页
  1.1.1 文本挖掘的定义第13页
  1.1.2 文本挖掘的过程第13-14页
 1.2 文本挖掘研究现状第14-20页
  1.2.1 文本特征表示第15-17页
  1.2.2 基于关键字的关联分析第17-18页
  1.2.3 文本分类第18-19页
  1.2.4 文本聚类第19-20页
 1.3 文本挖掘与相近领域的关系第20-23页
  1.3.1 自然语言处理与文本挖掘的区别第20-21页
  1.3.2 文本挖掘与相关领域的交叉第21-22页
  1.3.3 文本挖掘技术在Email处理方面的应用第22-23页
 1.4 本文工作第23-26页
  1.4.1 研究目标与研究内容第23-24页
  1.4.2 本文结构第24-26页
第二章 文本分类及其评估方法第26-36页
 2.1 引言第26页
 2.2 问题描述第26-27页
  2.2.1 文本分类第26-27页
  2.2.2 单标号文本分类与多标号文本分类第27页
  2.2.3 类别中心分类与文档中心分类第27页
 2.3 文本分类应用第27-28页
  2.3.1 自动索引第27-28页
  2.3.2 文本过滤第28页
  2.3.3 词感应消歧第28页
  2.3.4 Web文档分类第28页
 2.4 文本分类器第28-31页
  2.4.I k最近邻第29页
  2.4.2 支持向量机第29-30页
  2.4.3 朴素贝叶斯第30-31页
 2.5 文本分类模型的评估第31-35页
  2.5.1 分类模型的评估方法第31-32页
  2.5.2 评估指标第32-35页
 2.6 结论第35-36页
第三章 文本预处理第36-51页
 3.1 引言第36页
 3.2 文本的特征向量表示第36-39页
 3.3 特征抽取第39页
 3.4 特征选择第39-42页
  3.4.1 特征选择的机器学习方法第39-40页
  3.4.2 评估函数方法第40-42页
  3.4.3 全局特征选择方法第42页
 3.5 基于最小词频阈值的特征评估函数第42-46页
  3.5.1 基于文档频的评估函数第43-44页
  3.5.2 基于词频的评估函数第44-45页
  3.5.3 基于最小词频阈值的文档频评估函数第45-46页
 3.6 实验结果及分析第46-50页
  3.6.1 实验数据准备及参数设置第46页
  3.6.2 实验一 减少噪声特征的比例第46-48页
  3.6.3 实验二 分类实验第48-50页
 3.7 结论第50-51页
第四章 文本关联分析第51-73页
 4.1 引言第51页
 4.2 关联规则基本概念第51-53页
 4.3 频繁项集挖掘算法第53-59页
  4.3.1 频繁项集挖掘算法分类第53-54页
  4.3.2 广度优先搜索算法Apriori第54-55页
  4.3.3 深度优先搜索算法FP-Growth第55-59页
 4.4 基于关键字的文本关联分析第59-60页
 4.5 挖掘 N个最频繁项集第60-71页
  4.5.1 问题定义第61页
  4.5.2 利用N个最频繁k-项集挖掘N个最频繁项集第61-63页
  4.5.3 支持度阈值动态调整的N个最频繁项集挖掘算法第63-71页
 4.6 实验结果第71-72页
 4.7 结论第72-73页
第五章 文本关联分类第73-95页
 5.1 引言第73-74页
 5.2 文本关联分类第74-81页
  5.2.1 基于关联的分类器CBA第74-77页
  5.2.2 基于关联规则的分类算法ARC第77-79页
  5.2.3 关联分类的规则修剪策略第79-81页
 5.3 利用带词频的频繁项集构造文本关联分类器第81-94页
  5.3.1 带词频的频繁项集发现第81-86页
  5.3.2 利用分类规则树分类新文档第86-90页
  5.3.3 实验结果及分析第90-94页
 5.4 结论第94-95页
第六章 自适应加权的文本关联分类第95-111页
 6.1 引言第95-96页
 6.2 问题定义及实验分析第96-98页
 6.3 基于规则加权的关联分类算法WARC第98-102页
  6.3.1 规则强弱度量第98-99页
  6.3.2 规则加权的关联分类算法第99-100页
  6.3.3 WARC算法实验及结果分析第100-102页
 6.4 样本加权的关联分类算法SWARC第102-110页
  6.4.1 SWARC算法的训练过程第103-104页
  6.4.2 调整样本权重第104-105页
  6.4.3 分类过程第105-106页
  6.4.4 样本加权的频繁项集挖掘第106-107页
  6.4.5 SWARC算法实验及结果分析第107-110页
  6.4.6 SWARC算法与WARC算法比较第110页
 6.5 结论第110-111页
第七章 结束语第111-114页
 7.1 本文取得的成果第111-112页
 7.2 进一步的工作第112-114页
参考文献第114-120页
攻读博士学位期间参与的科研项目及主要成果第120-121页
致谢第121-122页
论文独创性声明第122页
论文使用授权声明第122页

论文共122页,点击 下载论文
上一篇:ABT-418和哌醋甲酯对ADHD动物模型SHR大鼠运动、空间学习、焦虑、非选择注意及α4β2烟碱受体表达影响的对照研究
下一篇:丽赛纤维喷气纺纱线性能的研究