首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

面向奥运的中文网页信息获取方法的初步研究

摘    要第1-4页
Abstract第4-6页
目    录第6-9页
第一章 引言第9-17页
   ·研究目的、意义及研究背景第9-12页
   ·网页自动分类第12-13页
   ·搜索引擎第13-15页
   ·本论文的主要工作第15页
   ·论文的结构第15-17页
第二章 奥运Web网页信息的统计分析第17-22页
   ·奥运Web网页的分布特性第17-18页
     ·分布的时间特性第17页
     ·分布的空间特性第17-18页
   ·奥运Web网页的特点第18-19页
   ·奥运Web网页用字、用词统计第19-21页
   ·关键词在奥运网页两个分类阶段的不同作用及词表的建立第21-22页
第三章 网页自动分类技术概述第22-37页
   ·中文网页的预处理第22-23页
   ·分类模型第23-26页
     ·布尔模型(Boolean Model)第24页
     ·向量空间模型(Vector Space Model, SVM)第24-25页
     ·概率模型(Probabilistic Model)第25-26页
     ·语言模型(Language Model)第26页
   ·特征选择及权值计算第26-30页
     ·文档频率(Document Frequency, DF)第26-27页
     ·信息增益(Information Gain, IG)第27页
     ·交叉熵(Cross Entropy, CE)第27-28页
     ·互信息(Mutual Information, MI)第28页
     ·统计量(CHI)第28-29页
     ·文本证据权(Weight of Evidence Text, WET)第29页
     ·几率比(Odds Ratio, OR)第29页
     ·特征强度(Term Strength, TS)第29-30页
   ·分类器的设计第30-35页
     ·基于类中心的最小距离分类器第30-31页
     ·K近邻分类器(K-Nearest)第31-32页
     ·贝叶斯分类器(Bayes)第32-33页
     ·支持向量机分类器(SVM)第33-35页
   ·评价方法第35-37页
第四章 中文奥运网页的过滤及实验分析第37-54页
   ·实验的总体介绍第37-38页
     ·实验数据的采集第37页
     ·面向奥运Web网页过滤系统的构成第37-38页
   ·实验数据的预处理第38-41页
   ·最小距离分类器与各种特征选择方法结合的网页过滤比较第41-48页
     ·直接使用TF第41-42页
     ·文档频率(DF)第42页
     ·信息增益(IG)第42-43页
     ·交叉熵(CE)第43页
     ·互信息(MI)第43-44页
     ·统计量(CHI)第44-45页
     ·文本证据权(WET)第45页
     ·几率比(OR)第45-46页
     ·各种特征选择方法的比较第46-47页
     ·对几率比和互信息两种特征选择方法的改进第47-48页
   ·贝叶斯分类器和支持向量机的分类实验第48-53页
     ·朴素贝叶斯(Na?ve Bayes)分类器第48-51页
     ·支持向量机(Support Vector Machine,SVM)分类器第51-52页
     ·三种分类器的性能比较第52-53页
   ·本章小结第53-54页
第五章 中文网页的自适应分类第54-66页
   ·自适应分类模型第54-56页
     ·检索字扩展模型--Rocchio算法第54-55页
     ·自适应分类模型--改进的Rocchio算法第55-56页
   ·自适应分类的实现第56-58页
   ·分类实验及结果第58-65页
     ·实验数据及预处理第58-59页
     ·分类器及评价方法第59-60页
     ·实验结果第60-63页
     ·模型在分类过程中的变化第63-65页
   ·本章小结第65-66页
第六章 基于密度的中文奥运网页聚类第66-75页
   ·网页聚类所面临的问题第66-69页
     ·聚类算法第66-68页
     ·特征的选择与提取第68-69页
   ·Web文档聚类的实现方法第69-71页
   ·Web文档聚类的实验结果第71-74页
   ·本章小结第74-75页
第七章 面向奥运的中文网页获取实验系统的初步设计第75-83页
   ·系统框架第75页
   ·各功能模块的设计第75-79页
     ·网页采集模块第75页
     ·数据预处理模块第75-77页
     ·主题过滤模块第77-78页
     ·自适应分类模块第78页
     ·其他辅助模块第78-79页
   ·系统的实现第79-83页
第八章 结论及工作展望第83-86页
参考文献第86-90页
致    谢第90-91页
个人简历及论文发表情况第91页

论文共91页,点击 下载论文
上一篇:论遏制刑讯逼供的对策
下一篇:绿色水处理剂聚环氧琥珀酸物化性能指标及表征技术