面向行业搜索引擎的WEB文本挖掘技术研究

摘要	第1-8页
Abstract	第8-9页
第一章绪论	第9-12页
·本文研究的背景(现状)和意义	第9-10页
·研究背景	第9页
·国内外研究现状分析	第9页
·研究意义	第9-10页
·本论文的主要工作	第10页
·本论文的主要内容	第10-12页
·WEB数据挖掘概述	第10页
·中文WEB文本挖掘关键技术介绍	第10-11页
·面向人名搜索引擎的文本聚类研究	第11-12页
第二章 Web数据挖掘	第12-19页
·Web数据挖掘概述	第12页
·Web挖掘方法及流程	第12-13页
·查找资源	第12页
·信息选择和预处理	第12-13页
·模式发现	第13页
·模式分析	第13页
·Web挖掘分类及各自的研究现状及发展	第13-19页
·Web内容挖掘	第14页
·Web文本挖掘	第14页
·Web多媒体挖掘	第14-15页
·从资源查找(Information Retrieval)的观点挖掘非结构化文档	第15页
·从数据库(Database)的观点挖掘非结构化文档：	第15-16页
·Web结构挖掘	第16-17页
·Web用法挖掘(Web usage Mining)	第17-19页
第三章中文WEB文本挖掘关键技术	第19-37页
·WEB文本获取	第19页
·WEB文本消噪	第19-22页
·文本的表示	第22-25页
·基于汉语的文本特征提取	第23-24页
·切词	第24-25页
·特征的选取	第25页
·文本特征缩减(特征子集选取)	第25-28页
·信息抽取	第28-30页
·分词标注	第28-29页
·命名实体识别	第29页
·实体关系识别	第29-30页
·共指识别	第30页
·中文网页聚类分析介绍	第30-37页
·中文网页聚类的一般过程	第30-31页
·常用聚类算法	第31-32页
·相似性度量	第32-37页
第四章面向人名聚类搜索引擎的WEB文本挖掘研究	第37-48页
·面向人名的搜索引擎	第37-38页
·中文人名搜索引擎的体系结构	第38-40页
·中文人名搜索引擎的服务模型	第40页
·面向人名聚类搜索引擎的WEB文本挖掘总体流程及实现	第40-48页
·网页抓取器	第41页
·文档分析器	第41-44页
·基于信息抽取的聚类分析器(补偿式信息抽取的主题文本分类算法)	第44-48页
第五章实验结果与分析	第48-54页
·实验原型系统的设计与搭建	第48页
·实验数据测试与分析	第48-54页
·网络文本抓取结果分析	第48-49页
·文本消噪结果分析	第49-50页
·文本特征提取及特征重构结果分析	第50-51页
·文本信息提取结果分析	第51-52页
·CIETC算法结果分析	第52-54页
第六章结论与未来工作	第54-56页
·创新点	第54页
·应用前景	第54页
·有待解决的问题及未来工作	第54-56页
参考文献	第56-59页
在读期间研究成果	第59-60页
致谢	第60页