专题型网页搜集器关键算法的研究及实现

摘要	第1-3页
ABSTRACT	第3-4页
目录	第4-6页
第一章引言	第6-12页
·研究背景	第6-10页
·面向主题的搜集技术	第7-8页
·国内外发展状况	第8-10页
·论文的工作	第10-12页
·论文的研究工作	第10-11页
·论文内容概述	第11-12页
第二章网页预处理及特征提取	第12-19页
·网页预处理	第12-15页
·网页信息提取	第13-14页
·文本分词	第14-15页
·网页特征提取及权重计算	第15-17页
·文档表示模型-VSM模型	第17-19页
第三章基于DDBCUR聚类算法的网页过滤	第19-33页
·聚类中的数据类型	第19-21页
·主要聚类方法	第21-22页
·基于动态密度的层次聚类算法	第22-29页
·层次聚类方法	第22-23页
·密度聚类方法	第23-24页
·基于动态密度的层次聚类算法(DDBCUR)	第24-29页
·基于聚类模型的网页过滤	第29-33页
第四章基于增量学习的链接排序算法	第33-40页
·基于链接结构的链接相关性估计	第33-36页
·利用已访问的父网页估计链接相关性	第34页
·利用已访问的兄弟链接估计链接相关性	第34-36页
·相关性合并	第36页
·基于链接文本的链接相关性估计	第36-38页
·利用链接文本估计	第36-37页
·利用链接周围文本(Anchor文本)估计	第37页
·利用搜索结果增量学习	第37-38页
·基于链接结构的链接排序	第38-40页
第五章系统设计与实现	第40-47页
·系统总体设计	第40-41页
·数据库结构设计	第41-42页
·网页采集模块	第42-44页
·网页采集子模块	第43-44页
·信息提取子模块	第44页
·页过滤模块	第44-45页
·样本聚类子模块	第44-45页
·网页过滤子模块	第45页
·链接分析模块	第45-47页
第六章实验与评价	第47-55页
·网页聚类实验	第47-51页
·聚类训练实验——类模型生成	第47-49页
·类训练——类模型应用	第49-50页
·评价	第50-51页
·系统整体性能实验	第51-55页
·实验内容	第51-52页
·实验结果与评价	第52-55页
第七章总结与展望	第55-57页
参考文献	第57-61页
致谢	第61-62页
本人简历	第62页