基于SVM的中文电子邮件作者身份挖掘技术研究
| 1 引言 | 第1-14页 |
| ·问题的提出 | 第7-9页 |
| ·可行性研究 | 第9页 |
| ·相关研究 | 第9-13页 |
| ·作品风格学(stylometry)和身份分析 | 第9-10页 |
| ·身份分析发展的历史和现状 | 第10-12页 |
| ·邮件作者身份分析的国内外研究现状 | 第12-13页 |
| ·本文的主要工作 | 第13-14页 |
| 2 数据挖掘原理及技术 | 第14-26页 |
| ·数据挖掘概述 | 第14-17页 |
| ·数据挖掘的产生背景 | 第14页 |
| ·数据挖掘的概念 | 第14页 |
| ·数据挖掘与知识发现 | 第14-15页 |
| ·数据挖掘的过程 | 第15-16页 |
| ·数据挖掘技术分析 | 第16-17页 |
| ·数据挖掘方法及工具 | 第17-20页 |
| ·神经网络技术 | 第17-18页 |
| ·决策树 | 第18-19页 |
| ·遗传算法 | 第19页 |
| ·粗糙集 | 第19-20页 |
| ·支持向量机 | 第20页 |
| ·文本挖掘技术 | 第20-21页 |
| ·自动文本分类技术 | 第21-26页 |
| ·文本信息的预处理 | 第22页 |
| ·文本的特征表示和特征提取 | 第22-23页 |
| ·特征匹配与分类 | 第23-26页 |
| 3 支持向量机分类算法 | 第26-36页 |
| ·统计学习理论 | 第26-28页 |
| ·机器学习 | 第26-27页 |
| ·经验风险最小化原理 | 第27页 |
| ·VC维 | 第27页 |
| ·结构风险最小归纳原理 | 第27-28页 |
| ·支持向量机算法原理 | 第28-34页 |
| ·线性支持向量机 | 第28-30页 |
| ·非线性支持向量机 | 第30-32页 |
| ·支持向量机训练算法 | 第32-34页 |
| ·支持向量机多类分类 | 第34-36页 |
| 4 邮件作者身份挖掘技术研究 | 第36-49页 |
| ·电子邮件的特点 | 第36-37页 |
| ·电子邮件的工作原理 | 第36页 |
| ·电子邮件的头信息 | 第36-37页 |
| ·邮件文档的特点 | 第37页 |
| ·邮件作者身份分类过程 | 第37-39页 |
| ·关键问题处理技术 | 第39-47页 |
| ·中文自动分词 | 第39-40页 |
| ·邮件文档的向量空间模型 | 第40-41页 |
| ·邮件向量的提取 | 第41-44页 |
| ·邮件作者身份分类的设计 | 第44-45页 |
| ·k分交叉评价 | 第45-46页 |
| ·评估方法 | 第46-47页 |
| ·邮件作者身份挖掘研究实验 | 第47-49页 |
| ·数据集 | 第47页 |
| ·实验方法 | 第47页 |
| ·实验结果 | 第47-49页 |
| 5 结论与展望 | 第49-51页 |
| ·本文所得的结论 | 第49页 |
| ·进一步研究的方向 | 第49-51页 |
| 参考文献 | 第51-59页 |
| 附录A 标准邮件的头部代码 | 第59-60页 |
| 附录B 原始邮件文档预处理后的格式 | 第60-61页 |
| 附录C 切分后的电子邮件格式 | 第61-62页 |
| 附录D LIBSVM-2.5输入数据格式 | 第62-63页 |
| 附录E 邮件语言特征的特征词 | 第63-64页 |
| 在读期间发表的学术论文 | 第64-70页 |
| 作者简历 | 第70-71页 |
| 致谢 | 第71页 |