首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于潜在语义索引的Web文本挖掘

摘要第1-4页
Abstract第4-8页
第一章 绪论第8-12页
   ·课题研究的背景及意义第8-9页
   ·国内外的研究现状第9页
   ·论文研究的内容第9-10页
     ·Web 文本聚类的应用第9-10页
     ·Web 文本聚类存在的问题第10页
     ·论文研究的主要内容第10页
   ·论文的章节安排第10-11页
   ·本章小结第11-12页
第二章 Web 文本聚类的相关技术第12-24页
   ·Web 网页的预处理第12-15页
     ·网页的噪音分析第12-13页
     ·中文网页的组成第13-14页
     ·基于 HTML 标签的网页清洗算法第14-15页
   ·Web 文本特征提取第15-18页
     ·分词第15-16页
     ·特征的提取方法第16-17页
     ·特征的加权方法第17-18页
   ·相似度计算方式第18-20页
     ·明科夫斯基距离第19页
     ·余弦相似度第19-20页
     ·雅克比相似度第20页
   ·聚类算法第20-23页
     ·聚类算法的分析过程第20页
     ·常用的聚类算法第20-22页
     ·聚类算法的性能分析第22-23页
   ·本章小结第23-24页
第三章 基于 LSI 和 PLSI 模型的潜在语义特征提取第24-36页
   ·向量空间模型第25页
   ·LSI 模型第25-28页
     ·原始矩阵的奇异值分解第26-27页
     ·SVD 分解下的相似度比较第27-28页
   ·PLSI 模型第28-30页
     ·PLSI 模型假设第28-29页
     ·EM 算法第29-30页
   ·基于 LSI 的 PLSI 模型优化第30-33页
     ·LSI 的概率模型第31-32页
     ·基于 LSI 概率模型的 PLSI 模型优化第32-33页
     ·网页概率潜在语义信息(WPLSI)算法第33页
   ·本章小结第33-36页
第四章 基于 WPLSI 算法的互联网用户兴趣点挖掘第36-46页
   ·自动相似度阈值的选择第36-38页
     ·自动相似度阈值的基本思想第36-37页
     ·Web 文本的相似度阈值第37-38页
   ·基于 WPLSI 和 HAK-mediods 的 Web 文本聚类第38-40页
     ·k-means 算法第38页
     ·k-mediods 算法第38-39页
     ·凝聚式层次聚类算法第39页
     ·基于 WPLSI 和 HAK-mediods 的 Web 文本聚类第39-40页
   ·聚类有效性评价第40页
   ·实验过程及结果分析第40-45页
     ·Web 网页清洗第40-42页
     ·建立原始的“文本--特征词”矩阵第42-43页
     ·Web 网页数据集第43页
     ·三种聚类算法的实验分析第43-45页
     ·聚类算法的时间性能分析第45页
   ·本章小结第45-46页
第五章 PLSI 模型优化在大众分类系统中的实际应用第46-54页
   ·大众分类系统的现状第46-47页
     ·Folksonomy第46页
     ·标签选取--以豆瓣网为例第46-47页
   ·实验数据的预处理第47-48页
     ·实验语料的获取第47-48页
     ·标签的潜在语义表示第48页
   ·多个数据集下的聚类结果分析第48-53页
     ·多个数据集第48-49页
     ·实验结果分析第49-52页
     ·时间消耗分析第52-53页
   ·实验的不足与待改进之处第53页
   ·本章小结第53-54页
主要结论与展望第54-55页
 主要结论第54页
 展望第54-55页
致谢第55-56页
参考文献第56-59页
附录: 作者在攻读硕士学位期间发表的论文第59页

论文共59页,点击 下载论文
上一篇:基于线性子空间及Gabor小波的人脸识别算法研究
下一篇:用于嵌入式系统的Mean Shift实时计算方法的研究与应用