基于SVM的中文电子邮件作者身份挖掘技术研究
1 引言 | 第1-14页 |
·问题的提出 | 第7-9页 |
·可行性研究 | 第9页 |
·相关研究 | 第9-13页 |
·作品风格学(stylometry)和身份分析 | 第9-10页 |
·身份分析发展的历史和现状 | 第10-12页 |
·邮件作者身份分析的国内外研究现状 | 第12-13页 |
·本文的主要工作 | 第13-14页 |
2 数据挖掘原理及技术 | 第14-26页 |
·数据挖掘概述 | 第14-17页 |
·数据挖掘的产生背景 | 第14页 |
·数据挖掘的概念 | 第14页 |
·数据挖掘与知识发现 | 第14-15页 |
·数据挖掘的过程 | 第15-16页 |
·数据挖掘技术分析 | 第16-17页 |
·数据挖掘方法及工具 | 第17-20页 |
·神经网络技术 | 第17-18页 |
·决策树 | 第18-19页 |
·遗传算法 | 第19页 |
·粗糙集 | 第19-20页 |
·支持向量机 | 第20页 |
·文本挖掘技术 | 第20-21页 |
·自动文本分类技术 | 第21-26页 |
·文本信息的预处理 | 第22页 |
·文本的特征表示和特征提取 | 第22-23页 |
·特征匹配与分类 | 第23-26页 |
3 支持向量机分类算法 | 第26-36页 |
·统计学习理论 | 第26-28页 |
·机器学习 | 第26-27页 |
·经验风险最小化原理 | 第27页 |
·VC维 | 第27页 |
·结构风险最小归纳原理 | 第27-28页 |
·支持向量机算法原理 | 第28-34页 |
·线性支持向量机 | 第28-30页 |
·非线性支持向量机 | 第30-32页 |
·支持向量机训练算法 | 第32-34页 |
·支持向量机多类分类 | 第34-36页 |
4 邮件作者身份挖掘技术研究 | 第36-49页 |
·电子邮件的特点 | 第36-37页 |
·电子邮件的工作原理 | 第36页 |
·电子邮件的头信息 | 第36-37页 |
·邮件文档的特点 | 第37页 |
·邮件作者身份分类过程 | 第37-39页 |
·关键问题处理技术 | 第39-47页 |
·中文自动分词 | 第39-40页 |
·邮件文档的向量空间模型 | 第40-41页 |
·邮件向量的提取 | 第41-44页 |
·邮件作者身份分类的设计 | 第44-45页 |
·k分交叉评价 | 第45-46页 |
·评估方法 | 第46-47页 |
·邮件作者身份挖掘研究实验 | 第47-49页 |
·数据集 | 第47页 |
·实验方法 | 第47页 |
·实验结果 | 第47-49页 |
5 结论与展望 | 第49-51页 |
·本文所得的结论 | 第49页 |
·进一步研究的方向 | 第49-51页 |
参考文献 | 第51-59页 |
附录A 标准邮件的头部代码 | 第59-60页 |
附录B 原始邮件文档预处理后的格式 | 第60-61页 |
附录C 切分后的电子邮件格式 | 第61-62页 |
附录D LIBSVM-2.5输入数据格式 | 第62-63页 |
附录E 邮件语言特征的特征词 | 第63-64页 |
在读期间发表的学术论文 | 第64-70页 |
作者简历 | 第70-71页 |
致谢 | 第71页 |