基于Python的古汉语文本聚类应用研究

摘要	第2-3页
Abstract	第3-4页
1 绪论	第7-11页
1.1 研究背景与意义	第7页
1.2 国内外文本挖掘研究现状	第7-9页
1.3 古汉语研究现状	第9-10页
1.4 论文的组织和结构	第10-11页
2 文本挖掘及相关技术	第11-24页
2.1 数据挖掘	第11页
2.2 文本挖掘	第11-12页
2.3 文本聚类	第12-15页
2.3.1 文本聚类的特点	第13页
2.3.2 文本聚类的研究方向	第13-14页
2.3.3 影响文本聚类结果的因素	第14-15页
2.4 文本预处理	第15-21页
2.4.1 文本分词	第15-16页
2.4.2 数据降维	第16-18页
2.4.3 文本表示	第18-19页
2.4.4 文本相似度计算	第19-21页
2.5 聚类算法的评价因素	第21-22页
2.6 文本聚类算法的评价指标	第22-24页
3 实验环境与整体设计	第24-30页
3.1 Python语言的介绍	第24页
3.2 算法分析	第24-27页
3.2.1 K-means算法分析	第24-25页
3.2.2 BIRCH算法分析	第25-26页
3.2.3 DBSCAN算法分析	第26-27页
3.3 环境搭建	第27页
3.4 古汉语特点	第27-29页
3.5 实验过程设计	第29-30页
4 实现过程与分析验证	第30-45页
4.1 文本预处理	第30-36页
4.1.1 语料库收集	第30-32页
4.1.2 文本预处理	第32-36页
4.2 文本聚类实现	第36-45页
4.2.1 聚类对比	第36-40页
4.2.2 选择效果较好的算法优化	第40-41页
4.2.3 Birch算法优化与完善	第41-43页
4.2.4 验证测试	第43-45页
5 实验总结与展望	第45-46页
5.1 本文的主要研究工作及成果	第45页
5.2 存在的问题及对未来工作的展望	第45-46页
参考文献	第46-49页
致谢	第49-51页