短文本数据聚合模型的理论与应用研究

摘要	第5-7页
abstract	第7-8页
第一章绪论	第12-19页
1.1 研究工作的背景与意义	第12-14页
1.2 国内外发展现状	第14-16页
1.3 本文的主要贡献与创新	第16-17页
1.4 本论文的结构安排	第17-19页
第二章数据聚合技术概述	第19-32页
2.1 数据聚合的定义	第19页
2.2 数据聚合的流程	第19-20页
2.2.1 数据聚合的一般流程	第19-20页
2.2.2 大规模数据的聚合流程	第20页
2.3 分词技术	第20-23页
2.3.1 基于词典匹配的分词算法	第21-22页
2.3.2 基于统计模型的分词算法	第22页
2.3.3 基于知识理解的分词算法	第22-23页
2.4 分区索引技术	第23-25页
2.4.1 倒排索引	第23-24页
2.4.2 近邻排序索引	第24-25页
2.4.3 Trie树索引	第25页
2.5 文本数据聚合算法	第25-31页
2.5.1 基于相似度匹配的文本聚合算法	第26-27页
2.5.2 基于概率统计的文本聚合算法	第27-28页
2.5.3 基于主题模型的文本聚合算法	第28-29页
2.5.4 基于监督模型的文本聚合算法	第29页
2.5.5 基于无监督模型的文本聚合算法	第29-31页
2.6 本章小结	第31-32页
第三章针对短文本数据聚合的广义JARO-WINKLER算法	第32-48页
3.1 短文本数据聚合面临的挑战	第32页
3.2 常用文本相似度匹配算法	第32-37页
3.2.1 基本Jaro-Winkler相似度算法	第33-34页
3.2.2 编辑距离相似度算法	第34页
3.2.3 最长公共子序列相似度算法	第34-35页
3.2.4 余弦相似度算法	第35页
3.2.5 短语相似度算法	第35-36页
3.2.6 常用相似度算法的优势与劣势分析	第36-37页
3.3 广义Jaro-Winkler算法	第37-43页
3.3.1 算法描述	第37-39页
3.3.2 广义Jaro-Winkler算法的相关参数分析	第39-43页
3.3.2.1 相同字符匹配度m的取值范围	第39-40页
3.3.2.2 最大间隔的取值范围	第40-42页
3.3.2.3 前缀L的取值范围	第42-43页
3.4 算法复杂度分析	第43-46页
3.4.1 Jaro-Winkler相似度算法的复杂度分析	第43-44页
3.4.2 编辑距离算法的复杂度分析	第44页
3.4.3 最长公共子序列算法的复杂度分析	第44页
3.4.4 余弦相似度算法的复杂度分析	第44-45页
3.4.5 短语相似度算法的复杂度分析	第45页
3.4.6 广义Jaro-Winkler相似度算法的复杂度分析	第45-46页
3.5 本章小结	第46-48页
第四章商户数据聚合模型的应用研究	第48-72页
4.1 研究背景	第48-49页
4.2 模型设计	第49页
4.3 数据获取	第49-51页
4.3.1 内部数据	第49-50页
4.3.2 外部数据	第50-51页
4.4 数据清洗	第51页
4.4.1 停用词过滤	第51页
4.4.2 字数过滤	第51页
4.4.3 类别过滤	第51页
4.5 数据匹配	第51-57页
4.5.1 快速匹配	第52-54页
4.5.1.1 文本分词	第52页
4.5.1.2 构建倒排索引	第52-53页
4.5.1.3 选取候选对	第53-54页
4.5.2 精细匹配	第54-57页
4.6 实验与讨论	第57-71页
4.6.0 整体模型对比	第58-59页
4.6.1 快速匹配的准确性测试	第59-60页
4.6.2 精细匹配算法的准确性测试	第60-62页
4.6.3 精细匹配算法的泛化能力测试	第62页
4.6.4 精细匹配算法的稳定性测试	第62-68页
4.6.4.1 算法的1F值	第63-64页
4.6.4.2 最大熵原理	第64页
4.6.4.31F值标准差的热力图和熵值曲线图	第64-68页
4.6.5 精细匹配算法的最优阈值和最优准确率分析	第68-69页
4.6.6 精细匹配算法的效率测试	第69-71页
4.7 本章小结	第71-72页
第五章全文总结与展望	第72-75页
5.1 全文总结	第72-73页
5.2 后续工作展望	第73-75页
致谢	第75-76页
参考文献	第76-80页
攻读硕士学位期间取得的成果	第80-81页