中文网页自动分类的一种实现

中文摘要	第1-5页
目录	第5-8页
0 引言	第8-12页
0．1 搜索引擎概述	第8-9页
0．2 自动分类简介	第9-10页
0．3 论文问题的提出	第10页
0．4 本文所做的工作	第10-12页
1 信息检索技术	第12-24页
1．1 信息检索的基本技术	第12-15页
1．1．1 关键词检索	第12-13页
1．1．2 全文检索	第13-15页
1．1．3 全文扫描	第15页
1．2 网络环境下的信息检索	第15-17页
1．2．1 网络环境的特点	第15-16页
1．2．2 数据采集	第16-17页
1．2．3 数据调度	第17页
1．2．4 数据集成	第17页
1．3 自动分类技术	第17-24页
1．3．1 文本分类概述	第18-20页
1．3．2 文本分类过程	第20-21页
1．3．3 文本聚类概述	第21-22页
1．3．4 文本聚类过程	第22-24页
2 网页信息的自动提取	第24-30页
2．1 网上信息分析	第24-26页
2．1．1 网上信息的表示	第24页
2．1．2 网页的结构分析	第24-25页
2．1．3 网页控制符分析	第25-26页
2．2 特征提取	第26-27页
2．2．1 中文特征项提取	第26-27页
2．2．2 基于词的自动分类的局限	第27页
2．3 网页信息提取	第27-30页
2．3．1 网页信息的提取流程	第27-29页
2．3．2 HTML控制符号处理	第29-30页
3 分类模型	第30-40页
3．1 权重计算	第30-34页
3．1．1 IDF公式定义	第30-31页
3．1．2 IDF公式推导	第31-32页
3．1．3 BAYES公式	第32-34页
3．2 训练公式	第34-35页
3．3 精简算法	第35-36页
3．4 目标表示	第36-37页
3．5 向量空间模型	第37-38页
3．6 分类公式	第38-40页
3．6．1 文档的向量空间表示	第38页
3．6．2 文档的向量计算公式	第38-40页
4 自动分类实现	第40-46页
4．1 分类过程概述	第40-41页
4．2 权重向量库管理	第41-44页
4．2．1 权重向量库的结构	第41-42页
4．2．2 权重向量库的建立	第42-43页
4．2．3 权重向量库的更新	第43-44页
4．3 训练过程	第44-45页
4．4 精简权重向量库	第45页
4．5 自动分类判别	第45-46页
5 测试结果	第46-47页
5．1 训练用数据	第46页
5．2 测试结果	第46-47页
6 结论与展望	第47-48页
6．1 结论	第47页
6．2 展望	第47-48页
6．2．1 网页分析	第47页
6．2．2 未登录单词的识别	第47-48页
致谢	第48-49页
参考文献	第49-50页