首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

面向海量短文本去重技术的研究与实现

摘要第1-11页
ABSTRACT第11-13页
第一章 绪论第13-17页
   ·问题的提出第13-14页
   ·相关的概念第14页
   ·国内外研究现状第14-15页
   ·本文的工作第15-17页
     ·研究目标与内容第15-16页
     ·研究成果第16页
     ·文章组织结构第16-17页
第二章 相关技术研究第17-23页
   ·中文处理第17-18页
     ·文本表示第17-18页
     ·特征值权重第18页
     ·文本特征矩阵第18页
   ·域匹配技术第18-19页
     ·基于字符串的相似矩阵第18-19页
     ·基于令牌相似矩阵第19页
     ·基于语音相似的矩阵第19页
     ·基于数字相似矩阵第19页
   ·发现重复记录第19-22页
     ·文本自动分类第20页
     ·文本自动聚类第20-21页
     ·基于规则的方法第21-22页
     ·基于距离的方法第22页
   ·本章小结第22-23页
第三章 海量短文本完全去重第23-39页
   ·基本概念第23-27页
     ·短文本的组成结构第23-24页
     ·相关定义第24页
     ·相关算法研究第24-27页
     ·符号表第27页
   ·ARFA算法描述第27-32页
     ·关联规则第28-30页
     ·特征码第30页
     ·ARFA算法第30-32页
   ·ARFA实现过程第32-35页
     ·利用分层树实现ARFA第32-34页
     ·ARFA伪代码第34-35页
   ·ARFA算法实验分析第35-38页
     ·运行时间与压缩比实验分析第35-36页
     ·取特征码实验分析第36-38页
   ·本章小结第38-39页
第四章 海量短文本相似度去重第39-51页
   ·基本概念第39-41页
     ·相关定义第39-40页
     ·相关算法研究第40-41页
     ·符号表第41页
   ·ARFA-SA算法描述第41-45页
     ·文本的布尔表示第42页
     ·相似度计算第42-43页
     ·相似度假设第43-44页
     ·ARFA-SA算法第44-45页
   ·ARFA-SA实现过程第45-47页
     ·RB-树第45页
     ·相似度计算过程第45-47页
     ·ARFA-SA算法伪代码第47页
   ·ARFA-SA算法实验分析第47-50页
     ·文本的相似度第47-48页
     ·频繁度对ARFA-SA运行时间的影响第48-49页
     ·ARFA-SA算法运行时间及压缩比分析第49-50页
   ·本章小结第50-51页
第五章 自动去重在文本挖掘系统中的应用第51-60页
   ·海量短文本挖掘体系结构第51-52页
   ·自动去重与其它系统模块之间的关系第52-53页
   ·自动去重模块体系结构设计第53-54页
   ·自动发现重复第54-57页
     ·群发用户报告第54-55页
     ·集中接收方报告第55-56页
     ·发现相关源ID第56-57页
   ·数据存储优化第57-59页
     ·删除重复记录第57-58页
     ·合并重复记录第58-59页
   ·本章小结第59-60页
第六章 总结与展望第60-62页
   ·论文总结工作第60页
   ·前景与展望第60-62页
致谢第62-64页
参考文献第64-70页
作者在学期间参加的科研项目第70-71页
作者在学期间取得的学术成果第71页

论文共71页,点击 下载论文
上一篇:诗意吟唱的追寻与徘徊--论叶灵凤小说中的性爱意识
下一篇:中学教师自主发展调查研究