文本挖掘技术在学术人物分析中的应用

摘要	第4-5页
ABSTRACT	第5页
第一章绪论	第8-12页
1.1 课题研究背景及意义	第8-9页
1.2 国内外研究现状	第9-10页
1.3 本文研究内容	第10页
1.4 本文组织结构	第10-12页
第二章数据挖掘与文本挖掘	第12-18页
2.1 数据挖掘	第12-13页
2.2 文本挖掘	第13-18页
2.2.1 文本挖掘的定义	第13页
2.2.2 文本挖掘的研究现状	第13-14页
2.2.3 文本挖掘的一般过程	第14-18页
第三章文本预处理与分析	第18-40页
3.1 概述	第18-19页
3.2 文本获取与格式转换	第19页
3.3 文本去噪	第19-23页
3.4 文本分句	第23页
3.5 文本分词	第23-25页
3.5.1 正则表达式的概念	第23-24页
3.5.2 正则表达式的特点	第24页
3.5.3 正则表达式的应用	第24-25页
3.6 停用词去除	第25-26页
3.7 词性标注	第26-34页
3.8 数字去除	第34-35页
3.9 词干提取	第35-40页
3.9.1 词干提取的概念	第35页
3.9.2 技术方案的选择	第35页
3.9.3 词干提取过程	第35-40页
第四章信息提取	第40-52页
4.1 作者合著关系提取	第40-41页
4.2 关键词提取	第41-48页
4.2.1 TF-IDF	第41-42页
4.2.2 线性加权	第42-44页
4.2.3 关键词自动提取算法KEA	第44-48页
4.3 改进后的关键词提取	第48-52页
4.3.1 拓展的结构特征	第48-49页
4.3.2 拓展的语法特征	第49-52页
第五章关键词提取算法实验与分析	第52-60页
5.1 KEA实验方法	第52-53页
5.1.1 数据收集方法	第52页
5.1.2 实验测试方法	第52-53页
5.2 KEA实验结果及分析	第53-57页
5.2.1 实验一:KEA算法的整体效率测试	第53-54页
5.2.2 实验二:全局语料库的大小和来源对算法的影响	第54-55页
5.2.3 实验三:训练集大小对算法的影响	第55-56页
5.2.4 实验四:文档长度对算法的影响	第56-57页
5.3 改进后的算法实验	第57-60页
第六章系统设计与实现	第60-66页
6.1 相关语言与工具使用	第60页
6.2 系统详细设计	第60-66页
6.2.1 文本预处理GUI	第60-62页
6.2.2 Web前端设计	第62-63页
6.2.3 Web架构设计	第63-66页
第七章总结与展望	第66-68页
7.1 总结	第66页
7.2 展望	第66-68页
参考文献	第68-72页
发表论文和参加科研情况	第72-73页
致谢	第73页