基于SVM的中文电子邮件作者身份挖掘技术研究

1 引言	第1-14页
·问题的提出	第7-9页
·可行性研究	第9页
·相关研究	第9-13页
·作品风格学(stylometry)和身份分析	第9-10页
·身份分析发展的历史和现状	第10-12页
·邮件作者身份分析的国内外研究现状	第12-13页
·本文的主要工作	第13-14页
2 数据挖掘原理及技术	第14-26页
·数据挖掘概述	第14-17页
·数据挖掘的产生背景	第14页
·数据挖掘的概念	第14页
·数据挖掘与知识发现	第14-15页
·数据挖掘的过程	第15-16页
·数据挖掘技术分析	第16-17页
·数据挖掘方法及工具	第17-20页
·神经网络技术	第17-18页
·决策树	第18-19页
·遗传算法	第19页
·粗糙集	第19-20页
·支持向量机	第20页
·文本挖掘技术	第20-21页
·自动文本分类技术	第21-26页
·文本信息的预处理	第22页
·文本的特征表示和特征提取	第22-23页
·特征匹配与分类	第23-26页
3 支持向量机分类算法	第26-36页
·统计学习理论	第26-28页
·机器学习	第26-27页
·经验风险最小化原理	第27页
·VC维	第27页
·结构风险最小归纳原理	第27-28页
·支持向量机算法原理	第28-34页
·线性支持向量机	第28-30页
·非线性支持向量机	第30-32页
·支持向量机训练算法	第32-34页
·支持向量机多类分类	第34-36页
4 邮件作者身份挖掘技术研究	第36-49页
·电子邮件的特点	第36-37页
·电子邮件的工作原理	第36页
·电子邮件的头信息	第36-37页
·邮件文档的特点	第37页
·邮件作者身份分类过程	第37-39页
·关键问题处理技术	第39-47页
·中文自动分词	第39-40页
·邮件文档的向量空间模型	第40-41页
·邮件向量的提取	第41-44页
·邮件作者身份分类的设计	第44-45页
·k分交叉评价	第45-46页
·评估方法	第46-47页
·邮件作者身份挖掘研究实验	第47-49页
·数据集	第47页
·实验方法	第47页
·实验结果	第47-49页
5 结论与展望	第49-51页
·本文所得的结论	第49页
·进一步研究的方向	第49-51页
参考文献	第51-59页
附录A 标准邮件的头部代码	第59-60页
附录B 原始邮件文档预处理后的格式	第60-61页
附录C 切分后的电子邮件格式	第61-62页
附录D LIBSVM-2.5输入数据格式	第62-63页
附录E 邮件语言特征的特征词	第63-64页
在读期间发表的学术论文	第64-70页
作者简历	第70-71页
致谢	第71页