微博数据预处理及话题检测方法研究

摘要	第1-5页
Abstract	第5-7页
目录	第7-10页
1 绪论	第10-21页
·课题来源及意义	第10-11页
·微博	第11-15页
·微博定义	第11-13页
·微博的产生与发展	第13-14页
·微博特点	第14-15页
·话题检测	第15-16页
·基本概念	第15页
·发展历程	第15-16页
·微博话题检测方法研究框架	第16页
·相关技术国内外研究现状	第16-20页
·短文本预处理研究现状	第16-17页
·话题检测技术研究现状	第17-18页
·微博相关研究现状	第18-20页
·论文主要研究内容与结构安排	第20-21页
2 微博数据信息采集	第21-32页
·基于网络爬虫的数据获取	第21-24页
·网络爬虫基本概念	第21页
·通用网络爬虫	第21-22页
·主题网络爬虫	第22-24页
·基于开放平台 API 的数据获取	第24-30页
·新浪微博开放平台 API	第24-25页
·OAuth 用户身份认证	第25-26页
·新浪微博 API 数据获取流程	第26页
·微博开放 API 获取数据具体过程	第26-30页
·实验对比与总结	第30-31页
·本章小结	第31-32页
3 微博短文本预处理	第32-47页
·使用多种语言增加短文本特征数量	第32-33页
·微博短文本存在的问题	第32页
·使用多种语言进行特征扩展	第32-33页
·问题形式化描述	第33页
·短文本特征扩展	第33-39页
·多语言知识整合框架	第34-36页
·整合框架的优化方法	第36-38页
·算法时间复杂度分析	第38-39页
·实验评估与分析	第39-46页
·实验数据准备	第39-40页
·聚类方法和评估标准	第40页
·决定性潜在维数	第40-41页
·外在扩充知识的作用	第41-43页
·语言种类数量的影响	第43-44页
·算法分析	第44-46页
·本章小结	第46-47页
4 微博话题检测方法	第47-60页
·微博话题检测方法思想	第47-49页
·传统话题检测技术	第47页
·微博话题检测技术分析	第47-48页
·话题检测方法总体框架	第48-49页
·微博话题检测方法过程	第49-55页
·微博数据的预处理	第49页
·微博文本的建模	第49-51页
·话题相似度计算	第51-52页
·话题检测算法流程	第52-55页
·实验结果与分析	第55-59页
·微博数据采集及预处理	第55-56页
·实验评价标准	第56-57页
·不同检测算法的比较实验	第57-59页
·本章小结	第59-60页
5 总结与展望	第60-62页
·总结	第60页
·展望	第60-62页
参考文献	第62-66页
致谢	第66-67页
攻读学位期间取得的科研成果清单	第67页