摘要 | 第4-5页 |
ABSTRACT | 第5页 |
第一章 绪论 | 第8-12页 |
1.1 课题研究背景及意义 | 第8-9页 |
1.2 国内外研究现状 | 第9-10页 |
1.3 本文研究内容 | 第10页 |
1.4 本文组织结构 | 第10-12页 |
第二章 数据挖掘与文本挖掘 | 第12-18页 |
2.1 数据挖掘 | 第12-13页 |
2.2 文本挖掘 | 第13-18页 |
2.2.1 文本挖掘的定义 | 第13页 |
2.2.2 文本挖掘的研究现状 | 第13-14页 |
2.2.3 文本挖掘的一般过程 | 第14-18页 |
第三章 文本预处理与分析 | 第18-40页 |
3.1 概述 | 第18-19页 |
3.2 文本获取与格式转换 | 第19页 |
3.3 文本去噪 | 第19-23页 |
3.4 文本分句 | 第23页 |
3.5 文本分词 | 第23-25页 |
3.5.1 正则表达式的概念 | 第23-24页 |
3.5.2 正则表达式的特点 | 第24页 |
3.5.3 正则表达式的应用 | 第24-25页 |
3.6 停用词去除 | 第25-26页 |
3.7 词性标注 | 第26-34页 |
3.8 数字去除 | 第34-35页 |
3.9 词干提取 | 第35-40页 |
3.9.1 词干提取的概念 | 第35页 |
3.9.2 技术方案的选择 | 第35页 |
3.9.3 词干提取过程 | 第35-40页 |
第四章 信息提取 | 第40-52页 |
4.1 作者合著关系提取 | 第40-41页 |
4.2 关键词提取 | 第41-48页 |
4.2.1 TF-IDF | 第41-42页 |
4.2.2 线性加权 | 第42-44页 |
4.2.3 关键词自动提取算法KEA | 第44-48页 |
4.3 改进后的关键词提取 | 第48-52页 |
4.3.1 拓展的结构特征 | 第48-49页 |
4.3.2 拓展的语法特征 | 第49-52页 |
第五章 关键词提取算法实验与分析 | 第52-60页 |
5.1 KEA实验方法 | 第52-53页 |
5.1.1 数据收集方法 | 第52页 |
5.1.2 实验测试方法 | 第52-53页 |
5.2 KEA实验结果及分析 | 第53-57页 |
5.2.1 实验一:KEA算法的整体效率测试 | 第53-54页 |
5.2.2 实验二:全局语料库的大小和来源对算法的影响 | 第54-55页 |
5.2.3 实验三:训练集大小对算法的影响 | 第55-56页 |
5.2.4 实验四:文档长度对算法的影响 | 第56-57页 |
5.3 改进后的算法实验 | 第57-60页 |
第六章 系统设计与实现 | 第60-66页 |
6.1 相关语言与工具使用 | 第60页 |
6.2 系统详细设计 | 第60-66页 |
6.2.1 文本预处理GUI | 第60-62页 |
6.2.2 Web前端设计 | 第62-63页 |
6.2.3 Web架构设计 | 第63-66页 |
第七章 总结与展望 | 第66-68页 |
7.1 总结 | 第66页 |
7.2 展望 | 第66-68页 |
参考文献 | 第68-72页 |
发表论文和参加科研情况 | 第72-73页 |
致谢 | 第73页 |