万维网上数据处理方法的研究

摘要	第1-4页
ABSTRACT	第4-6页
目录	第6-10页
第一章引言	第10-17页
·研究背景	第10-12页
·问题的出现	第10-11页
·解决的途径	第11-12页
·研究内容	第12-16页
·文本/网页分类	第12-13页
·文本/网页摘要	第13-15页
·文本聚类	第15-16页
·论文组织	第16-17页
第二章网页分类中的问题	第17-27页
·引言	第18页
·特征抽取	第18-20页
·特征选择	第20页
·分类器	第20-22页
·朴素贝叶斯分类算法	第21-22页
·支持向量机分类算法	第22页
·训练方法	第22-24页
·性能指标	第24页
·实验结果	第24-27页
·实验数据	第25页
·有关特征抽取的实验	第25-26页
·有关分类器的实验	第26-27页
第三章特征选择算法NV	第27-31页
·特征选择方法	第27-29页
·信息增益 IG	第27页
·统计CHI	第27-28页
·归一化方差NV	第28-29页
·实验	第29-30页
·实验设置	第29页
·实验结果	第29-30页
·小结和下一步工作讨论	第30-31页
第四章 IRC分类算法	第31-50页
·引言	第31-32页
·相关工作	第32-34页
·Web上对象的分类	第32-33页
·查询日志的分析	第33-34页
·算法设计	第34-40页
·问题定义	第34-35页
·基于内容的分类	第35-36页
·迭代增强分类算法(IRC)	第36-40页
·实验	第40-48页
·实验设置	第41-44页
·性能分析	第44-47页
·参数调整	第47-48页
·小结和下一步工作讨论	第48-50页
第五章基于隐链接的网页分类	第50-59页
·引言	第50-51页
·“隐链接”的定义及应用	第51-54页
·“隐链接”	第51-52页
·CLN分类算法	第52-53页
·通过链接进行特征抽取	第53-54页
·实验	第54-58页
·“链接关系”的统计	第54-55页
·链接关系对CLN的影响	第55-56页
·特征提取的方法对分类效果的影响	第56-57页
·“链接关系”在网页特征抽取中对分类性能的影响	第57-58页
·小结和下一步工作讨论	第58-59页
第六章分类中的其他问题	第59-66页
·主页识别	第59-63页
·引言	第59页
·相关工作	第59-60页
·问题定义	第60-61页
·解决方案	第61-63页
·查询词(Query)分类	第63-64页
·引言	第63-64页
·解决方案	第64页
·本章小结和下一步工作讨论	第64-66页
第七章 EMAIL聚类	第66-83页
·引言	第66-67页
·相关工作	第67-68页
·文本挖掘中的语言特征	第67-68页
·频繁集挖掘	第68页
·“受限”的聚类	第68页
·挖掘GSP	第68-72页
·抽取语言特征	第69-70页
·挖掘GSP	第70-71页
·生成GSP组	第71-72页
·基于GSP的“半指导”聚类	第72-74页
·GSP组的选择	第72页
·GSP-COPKM	第72-73页
·GSP-DCEM	第73-74页
·实验	第74-82页
·数据集	第74-75页
·评价标准	第75-76页
·实验结果与分析	第76-80页
·聚类命名	第80-82页
·本章小结和下一步工作讨论	第82-83页
第八章网页摘要	第83-113页
·引言	第83-84页
·传统摘要方法	第84-88页
·Luhn摘要方法	第84-85页
·LSA摘要算法	第85-86页
·有指导的(Supervised)摘要方法	第86-88页
·Content Body摘要算法	第88-90页
·网页的结构特征	第88-89页
·FOM模型	第89-90页
·CB摘要方法	第90页
·基于亲和性排序的摘要算法	第90-93页
·相关定义	第91页
·构建亲和性图	第91-92页
·计算信息量	第92-93页
·生成摘要	第93页
·用query log来做摘要	第93-96页
·改进Luhn	第94页
·改进LSA	第94-95页
·改进Content Body	第95-96页
·基于摘要的网页分类	第96-105页
·背景	第96-97页
·相关工作	第97页
·摘要方法描述	第97-99页
·实验结果与分析	第99-105页
·小结	第105页
·基于摘要的网页聚类	第105-112页
·引言	第105-106页
·实验设置	第106-108页
·实验结果	第108-111页
·小结	第111-112页
·本章小结和下一步工作讨论	第112-113页
第九章系统设计与实现	第113-119页
·系统背景	第113页
·系统实现	第113-119页
·分类模块	第115-117页
·摘要模块	第117-119页
第十章总结	第119-121页
·研究工作的总结	第119-120页
·进一步工作的展望	第120-121页
参考文献	第121-131页
致谢	第131-132页
本人简历	第132-134页