基于主题的WEB信息提取及智能搜索技术研究与实现

摘要	第1-7页
ABSTRACT	第7-11页
第一章绪论	第11-15页
·研究背景及意义	第11-14页
·本论文主要工作	第14页
·本论文的组织	第14-15页
第二章技术介绍和讨论	第15-31页
·基于WWW的搜索引擎	第15-20页
·搜索引擎的组成	第15-16页
·web crawler	第16-18页
·排序算法	第18-20页
·web文本信息的表示和特征获取	第20页
·web文本相关性算法	第20-24页
·基于元数据的判别	第21页
·基于链接标签数据的判别	第21-22页
·基于链接结构分析的判别	第22页
·基于页面语义信息的判别	第22-24页
·web文档聚类	第24-30页
·聚类的过程	第25页
·聚类的时机	第25-26页
·距离和相似系数	第26-27页
·模糊聚类算法	第27-29页
·聚类算法评价	第29-30页
·本章小结	第30-31页
第三章基于主题的智能搜索系统设计	第31-46页
·系统框架	第32页
·基于主题的crawler框架	第32-40页
·基于页面结构分析的信息提取	第33-37页
·主题相关性判断	第37-40页
·模糊 C-均值聚类器	第40-45页
·FCM算法描述	第40-42页
·影响 FCM有效性的两个参数	第42-44页
·FCM算法改进	第44-45页
·本章小结	第45-46页
第四章系统实现	第46-68页
·页面获取	第46-56页
·种子集合的产生	第47-49页
·多线程 Fetch	第49-53页
·网页消重	第53-56页
·页面分析	第56-58页
·数据表设计及字典生成	第56-58页
·页面表示及信息提取	第58页
·聚类算法的实现	第58-65页
·改进 FCM实现流程图	第59-60页
·改进 FCM算法实现	第60-64页
·算法测试	第64-65页
·实现中用到的编程技术	第65-67页
·Socket编程技术	第65页
·ADO数据库编程	第65-67页
·Boost库	第67页
·本章小结	第67-68页
第五章总结与展望	第68-70页
·本文总结	第68页
·下一步研究工作展望	第68-70页
致谢	第70-71页
参考文献	第71-75页
个人简历	第75-76页
攻硕期间取得的研究成果	第76页