短消息文本处理关键技术研究
摘要 | 第1-6页 |
Abstract | 第6-11页 |
1 引言 | 第11-15页 |
·背景 | 第11-12页 |
·国内外研究现状 | 第12-14页 |
·论文主要研究内容以及工作 | 第14-15页 |
2 网络爬虫技术研究 | 第15-22页 |
·爬虫技术的原理 | 第15-16页 |
·爬虫技术的分类 | 第16-19页 |
·网络爬虫技术的研究现状 | 第19-20页 |
·爬虫技术获取本文的数据集 | 第20-21页 |
·小结 | 第21-22页 |
3 文本分词技术研究 | 第22-31页 |
·短消息文本的特征 | 第22-23页 |
·短消息文本预处理 | 第23-24页 |
·分词技术概述 | 第24-29页 |
·分词技术的原理 | 第24-26页 |
·常用分词包简介 | 第26-28页 |
·分词技术的难题 | 第28-29页 |
·基于分词的短消息文本 | 第29-30页 |
·小结 | 第30-31页 |
4 文本聚类技术研究 | 第31-54页 |
·文本聚类技术概述 | 第31-42页 |
·传统聚类算法简介 | 第32-35页 |
·文本向量表示 | 第35-37页 |
·文本特征选择 | 第37-38页 |
·文本相似度衡量方法 | 第38-40页 |
·聚类效果评价 | 第40-42页 |
·基于AP算法的文本聚类技术 | 第42-46页 |
·AP算法原理 | 第42-45页 |
·AP算法的实现 | 第45-46页 |
·AP算法和K-MEANS算法的对比 | 第46-49页 |
·AP算法和STC(后缀树)算法的对比 | 第49-53页 |
·本章小结 | 第53-54页 |
5 基于AP算法的文本聚类原型系统 | 第54-70页 |
·原型系统的流程图 | 第54-56页 |
·系统结构设计 | 第56-69页 |
·短消息文本获取模块 | 第56-58页 |
·短消息文本预处理模块 | 第58-59页 |
·短消息文本向量化模块 | 第59-60页 |
·短消息文本聚类模块 | 第60-69页 |
·小结 | 第69-70页 |
6 总结与展望 | 第70-73页 |
·总结 | 第70-71页 |
·展望 | 第71-73页 |
参考文献 | 第73-77页 |
后记 | 第77-78页 |
致谢 | 第78-79页 |