首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

搜索引擎下Web分类技术研究

摘要第1-6页
Abstract第6-9页
1 绪论第9-12页
   ·课题的研究背景和意义第9页
   ·国内外研究现状第9-11页
     ·文本自动分类技术的研究现状第9-10页
     ·网页自动分类的研究现状第10-11页
   ·本文的主要工作第11页
   ·论文的结构安排第11-12页
2 文本分类理论基础与关键技术第12-21页
   ·文本分类概述第12-13页
   ·文本表示模型第13-14页
     ·文本特征第13页
     ·向量空间模型第13-14页
   ·文本特征选择第14-17页
     ·互信息(MI)第14-15页
     ·文档频率(DF)第15页
     ·信息增益(IG)第15页
     ·χ 2统计(CHI)第15-16页
     ·交叉熵(Expected Cross Entrophy)第16页
     ·文本证据权值(Weight of Evidence for Text)第16页
     ·Fisher 判别式第16-17页
   ·文本分类方法第17-19页
     ·支持向量机(Support Vector Machine, SVM)第17页
     ·朴素贝叶斯(Na ve Bayes)第17-18页
     ·K 最近邻算法(K Nearest Neighbor, KNN)第18-19页
   ·分类性能评估标准第19-21页
3 Web 文本的采集与信息抽取第21-38页
   ·Web 的基本结构和特点第21-24页
     ·Web 的组织结构第21-22页
     ·页面信息分析第22-23页
     ·Web 文本信息的特点第23-24页
     ·网页的噪音第24页
   ·Web 信息的采集第24-27页
     ·Web 页面采集策略第24-25页
     ·多线程处理第25-27页
   ·信息抽取第27-30页
     ·信息抽取概述第27-29页
     ·数据抽取评价指标第29-30页
   ·基于 DOM 的信息提取方法第30-38页
     ·DOM第30-32页
     ·HTML 解析第32-36页
     ·Web 信息抽取第36-38页
4 基于改进的决策支持向量机多类分类方法第38-51页
   ·文本预处理第38-40页
     ·分词第38-39页
     ·基于 DF 和 CHI 相结合的特征选取第39-40页
   ·支持向量机第40-44页
     ·支持向量机原理第40-41页
     ·最优化问题第41页
     ·二分类问题第41-43页
     ·多分类问题第43-44页
     ·核函数及选择第44页
   ·决策树第44-46页
     ·决策树的生成第45页
     ·决策树的优缺点第45-46页
   ·SVM 和决策树相结合的分类方法第46-48页
   ·实现结果分析第48-51页
5 分类搜索引擎设计第51-56页
   ·概述第51页
   ·搜索引擎分类第51-52页
   ·搜索引擎系统设计第52-53页
   ·核心技术第53-55页
     ·网络爬虫第53-54页
     ·索引系统第54-55页
     ·信息抽取第55页
   ·文本分类器的设计思想第55-56页
结论第56-57页
参考文献第57-62页
在学研究成果第62-63页
致谢第63页

论文共63页,点击 下载论文
上一篇:基于物理模型的非刚性医学图像配准算法研究
下一篇:基于聚类分析的图模型文本分类