首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

中文网页自动分类的一种实现

中文摘要第1-5页
目录第5-8页
0 引言第8-12页
 0.1 搜索引擎概述第8-9页
 0.2 自动分类简介第9-10页
 0.3 论文问题的提出第10页
 0.4 本文所做的工作第10-12页
1 信息检索技术第12-24页
 1.1 信息检索的基本技术第12-15页
  1.1.1 关键词检索第12-13页
  1.1.2 全文检索第13-15页
  1.1.3 全文扫描第15页
 1.2 网络环境下的信息检索第15-17页
  1.2.1 网络环境的特点第15-16页
  1.2.2 数据采集第16-17页
  1.2.3 数据调度第17页
  1.2.4 数据集成第17页
 1.3 自动分类技术第17-24页
  1.3.1 文本分类概述第18-20页
  1.3.2 文本分类过程第20-21页
  1.3.3 文本聚类概述第21-22页
  1.3.4 文本聚类过程第22-24页
2 网页信息的自动提取第24-30页
 2.1 网上信息分析第24-26页
  2.1.1 网上信息的表示第24页
  2.1.2 网页的结构分析第24-25页
  2.1.3 网页控制符分析第25-26页
 2.2 特征提取第26-27页
  2.2.1 中文特征项提取第26-27页
  2.2.2 基于词的自动分类的局限第27页
 2.3 网页信息提取第27-30页
  2.3.1 网页信息的提取流程第27-29页
  2.3.2 HTML控制符号处理第29-30页
3 分类模型第30-40页
 3.1 权重计算第30-34页
  3.1.1 IDF公式定义第30-31页
  3.1.2 IDF公式推导第31-32页
  3.1.3 BAYES公式第32-34页
 3.2 训练公式第34-35页
 3.3 精简算法第35-36页
 3.4 目标表示第36-37页
 3.5 向量空间模型第37-38页
 3.6 分类公式第38-40页
  3.6.1 文档的向量空间表示第38页
  3.6.2 文档的向量计算公式第38-40页
4 自动分类实现第40-46页
 4.1 分类过程概述第40-41页
 4.2 权重向量库管理第41-44页
  4.2.1 权重向量库的结构第41-42页
  4.2.2 权重向量库的建立第42-43页
  4.2.3 权重向量库的更新第43-44页
 4.3 训练过程第44-45页
 4.4 精简权重向量库第45页
 4.5 自动分类判别第45-46页
5 测试结果第46-47页
 5.1 训练用数据第46页
 5.2 测试结果第46-47页
6 结论与展望第47-48页
 6.1 结论第47页
 6.2 展望第47-48页
  6.2.1 网页分析第47页
  6.2.2 未登录单词的识别第47-48页
致谢第48-49页
参考文献第49-50页

论文共50页,点击 下载论文
上一篇:分布式多层应用系统及其安全控制的研究与应用
下一篇:幽门螺杆菌感染与端粒酶活性及c-myc、p16的表达在胃粘膜癌变中的相关性研究