WEB文本挖掘系统

摘要	第1-3页
ABSTRACT	第3-6页
第一章引言	第6-9页
·研究背景和意义	第6-7页
·本文的研究内容	第7页
·本文的组织结构	第7-9页
第二章 WEB挖掘的定义	第9-13页
·WEB挖掘的定义	第9-10页
·WEB挖掘系统和搜索引擎的异同	第10-11页
·国外的研究现状	第11-13页
第三章网页采集	第13-19页
·WEB采集的系统实现	第13-16页
·PageRank方法	第16页
·HITS算法	第16-19页
第四章网页净化	第19-34页
·基于标签树的净化方法	第19-20页
·基于ST树的净化方法	第20-21页
·基于VIPS的净化算法	第21-25页
·基于dom树的网页净化方法	第25-34页
第五章向量空间模型的建立	第34-37页
·向量空间模型	第34-35页
·向量维数压缩	第35-37页
第六章中文分词和关键词的获取	第37-42页
·基于字典、词库匹配的分词方法	第37-38页
·基于词的频度统计的分词方法	第38页
·基于知识理解的分词方法	第38-39页
·专有名词的获取	第39-40页
·中文分词面临的问题	第40-42页
第七章 WEB文本聚类	第42-46页
·K平均聚类算法(K-mean)	第42-43页
·SOM聚类算法	第43-44页
·一种新的聚类算法，投影聚类算法。	第44-46页
第八章 WEB挖掘系统的系统结构	第46-54页
·数据采集模块	第47页
·数据预处理模块	第47-50页
·网页净化模块	第50-51页
·数据库存储模块	第51-52页
·特征量抽取和缩减模块	第52页
·WEB聚类模块	第52-54页
第九章总结和展望	第54-55页
参考文献	第55-61页
附录2	第61-92页
致谢	第92-93页