首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

中文WEB文档自动分类的研究与实现

第1章 引言第1-11页
 1.1 研究的意义第8页
 1.2 国内外的研究现状第8-9页
 1.3 本课题研究的主要内容第9-11页
  1.3.1 中文WEB文档的自动抓取第9页
  1.3.2 中文WEB文档的信息加工和提取第9-10页
  1.3.3 文档自动分类第10-11页
第2章 总体设计第11-14页
 2.1 Fireeye的功能模块第11-12页
  2.1.1 网络蜘蛛第11页
  2.1.2 中文分词第11-12页
  2.1.3 特征选取第12页
  2.1.4 贝叶斯机器学习及分类第12页
 2.2 开发平台的选择第12-13页
 2.3 本课题的创新点第13-14页
第3章 网络蜘蛛及WEB文档解析第14-36页
 3.1 网络蜘蛛的抓取策略第14-15页
 3.2 Robots协议第15-16页
 3.3 WEB文档的种类及在信息提取中的价值第16-18页
 3.4 HTML结构化解析第18-28页
  3.4.1 超文本标记语言(HTML)第18页
  3.4.2 HTML中的超链接第18-19页
  3.4.3 HTML解析第19-28页
 3.5 网络蜘蛛的实现第28-36页
第4章 中文分词方法及其实现第36-54页
 4.1 中文分词概述第36-37页
 4.2 中文分词方法第37-43页
  4.2.1 简单扫描匹配法第37-39页
  4.2.2 扫描及条件决择法第39-41页
  4.2.3 复杂人工智能方法第41-43页
 4.3 中文分词的实现第43-54页
  4.3.1 中文词典第44-52页
  4.3.2 中文切分第52-54页
第5章 特征选取方法的比较与DFTF特征选取算法的实现第54-66页
 5.1 WEB文本预处理第55-57页
 5.2 特征选取算法第57-62页
  5.2.1 文档频度法第58页
  5.2.2 信息增益值法第58-59页
  5.2.3 x~2统计法第59页
  5.2.4 相关信息量第59-60页
  5.2.5 期望相关信息量第60页
  5.2.6 词条强度法第60-62页
 5.3 特征选取法的比较第62页
 5.4 本课题提出的特征选取算法第62-63页
 5.5 DFTF特征选取算法的实现第63-66页
第6章 基于贝叶斯学习的文档分类器的实现第66-81页
 6.1 贝叶斯方法第66-67页
 6.2 贝叶斯方法与文本分类第67-68页
 6.3 Naive贝叶斯分类器第68-71页
  6.3.1 Naive贝叶斯方法第68-69页
  6.3.2 估计概率第69-70页
  6.3.3 Naive贝叶斯学习与文本分类第70-71页
 6.4 Naive贝叶斯分类器的实现第71-81页
  6.4.1 Naive贝叶斯分类器的算法第71-72页
  6.4.2 贝叶斯分类器的实现第72-81页
第7章 结论与展望第81-85页
 7.1 Web文档分类的质量评价第81-82页
  7.1.1 分类正确率第81-82页
  7.1.2 查准率第82页
  7.1.3 查全率第82页
 7.2 WEB文档分类实验及其实验结果讨论第82-83页
 7.3 本课题的研究成果第83页
 7.4 进一步研究的设想第83-85页
参考文献第85-88页
致谢第88-89页
攻读硕士学位期间发表论文情况第89页

论文共89页,点击 下载论文
上一篇:轴向提取TE10/TE11模虚阴极振荡器
下一篇:汉语否定标记“不”的语义和句法