面向web文本挖掘的主题搜索技术研究

摘要	第1-4页
Abstract	第4-8页
第一章绪论	第8-12页
·课题背景	第8-9页
·研究现状	第9页
·课题的研究内容	第9-11页
·论文的组织结构	第11-12页
第二章 Web数据挖掘技术	第12-24页
·数据挖掘综述	第12-14页
·定义	第12-13页
·特征	第13页
·方法	第13-14页
·处理过程	第14页
·Web数据挖掘	第14-20页
·介绍	第14-15页
·优点	第15-17页
·类别	第17-19页
·基本步骤	第19-20页
·几种Web数据挖掘方式的对比	第20页
·Web文本挖掘	第20-22页
·小结	第22-24页
第三章搜索引擎技术	第24-32页
·搜索引擎概况	第24-25页
·概念	第24页
·搜索引擎的分类	第24-25页
·搜索引擎的关键技术	第25-27页
·信息的收集和存储技术	第25页
·信息的预处理技术	第25-26页
·信息索引技术	第26页
·搜索引擎的性能指标	第26-27页
·搜索引擎的基本模块构成	第27-28页
·网络爬虫技术	第28-31页
·概括	第28页
·性能	第28-29页
·基本原理	第29-30页
·实现方式	第30-31页
·小结	第31-32页
第四章系统中的理论和算法	第32-48页
·页面主题相似度算法	第32-33页
·TF-IDF权值	第32-33页
·相似度计算	第33页
·链接获取策略	第33-40页
·HTML结构树	第34页
·关联上下文	第34-36页
·建立样本库	第36页
·性能评价	第36-40页
·面向主题爬行的非贪婪遗传算法	第40-43页
·遗传算法	第40-41页
·链接选择的非贪婪策略	第41页
·基于非贪婪遗传算法的主题网络爬虫搜索算法	第41-42页
·性能评价	第42-43页
·中文分词技术	第43-45页
·机械分词方法	第43-44页
·基于理解的分词方法	第44页
·统计分词方法	第44-45页
·基于支持向量机的文本分类方法	第45-47页
·支持向量机与核函数	第45-46页
·基于SVM的Web文本分类算法	第46-47页
·小结	第47-48页
第五章系统的设计与实现	第48-70页
·面向Web文本挖掘的主题搜索系统	第48-49页
·系统设计的目标	第48-49页
·Label Studio3 的模块图	第49页
·多线程网络爬虫	第49-55页
·网络爬虫的框架	第49-50页
·Web页面的下载	第50-51页
·网页解析	第51-52页
·数据存储	第52-53页
·协调控制	第53-54页
·运行实现	第54-55页
·文本内容挖掘	第55-60页
·文本内容挖掘的框架	第55-56页
·语言分词	第56-57页
·特征抽取	第57-58页
·内容分类	第58-59页
·运行实现	第59-60页
·索引和检索	第60-69页
·索引检索模块的框架	第60-61页
·倒排序索引原理	第61-62页
·建立索引	第62-65页
·检索功能	第65-67页
·运行实现	第67-69页
·小结	第69-70页
第六章总结与展望	第70-72页
·研究工作的总结	第70页
·趋势与展望	第70-72页
致谢	第72-73页
参考文献	第73-75页
在读期间发表的学术论文	第75-76页