搜索引擎下Web分类技术研究

摘要	第1-6页
Abstract	第6-9页
1 绪论	第9-12页
·课题的研究背景和意义	第9页
·国内外研究现状	第9-11页
·文本自动分类技术的研究现状	第9-10页
·网页自动分类的研究现状	第10-11页
·本文的主要工作	第11页
·论文的结构安排	第11-12页
2 文本分类理论基础与关键技术	第12-21页
·文本分类概述	第12-13页
·文本表示模型	第13-14页
·文本特征	第13页
·向量空间模型	第13-14页
·文本特征选择	第14-17页
·互信息（MI）	第14-15页
·文档频率（DF）	第15页
·信息增益（IG）	第15页
·χ 2统计（CHI）	第15-16页
·交叉熵（Expected Cross Entrophy）	第16页
·文本证据权值（Weight of Evidence for Text）	第16页
·Fisher 判别式	第16-17页
·文本分类方法	第17-19页
·支持向量机（Support Vector Machine， SVM）	第17页
·朴素贝叶斯（Na ve Bayes）	第17-18页
·K 最近邻算法（K Nearest Neighbor， KNN）	第18-19页
·分类性能评估标准	第19-21页
3 Web 文本的采集与信息抽取	第21-38页
·Web 的基本结构和特点	第21-24页
·Web 的组织结构	第21-22页
·页面信息分析	第22-23页
·Web 文本信息的特点	第23-24页
·网页的噪音	第24页
·Web 信息的采集	第24-27页
·Web 页面采集策略	第24-25页
·多线程处理	第25-27页
·信息抽取	第27-30页
·信息抽取概述	第27-29页
·数据抽取评价指标	第29-30页
·基于 DOM 的信息提取方法	第30-38页
·DOM	第30-32页
·HTML 解析	第32-36页
·Web 信息抽取	第36-38页
4 基于改进的决策支持向量机多类分类方法	第38-51页
·文本预处理	第38-40页
·分词	第38-39页
·基于 DF 和 CHI 相结合的特征选取	第39-40页
·支持向量机	第40-44页
·支持向量机原理	第40-41页
·最优化问题	第41页
·二分类问题	第41-43页
·多分类问题	第43-44页
·核函数及选择	第44页
·决策树	第44-46页
·决策树的生成	第45页
·决策树的优缺点	第45-46页
·SVM 和决策树相结合的分类方法	第46-48页
·实现结果分析	第48-51页
5 分类搜索引擎设计	第51-56页
·概述	第51页
·搜索引擎分类	第51-52页
·搜索引擎系统设计	第52-53页
·核心技术	第53-55页
·网络爬虫	第53-54页
·索引系统	第54-55页
·信息抽取	第55页
·文本分类器的设计思想	第55-56页
结论	第56-57页
参考文献	第57-62页
在学研究成果	第62-63页
致谢	第63页