首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

标签树模板在网页关键信息抽取及话题识别中的应用

目录第1-5页
摘要第5-6页
Abstract第6-7页
第一章 引言第7-10页
   ·本课题的研究背景第7页
   ·本文的研究主题第7-8页
     ·问题的提出第7-8页
     ·本课题的现状第8页
     ·本文的主要工作第8页
   ·本文的结构第8-10页
第二章 网页话题识别相关技术第10-20页
   ·发展历史第10-11页
   ·网页信息收集第11-12页
   ·文档表示模型第12-17页
     ·概率统计模型第12-14页
     ·向量空间模型第14-16页
     ·研究现状第16-17页
   ·话题识别的聚类方法第17-19页
     ·简单聚类第17-18页
     ·基于层次的聚类第18页
     ·基于划分的聚类第18-19页
   ·小结第19-20页
第三章 基于标签树模板的网页信息抽取第20-40页
   ·网页信息提取研究现状第20-22页
   ·HTML标签树模板第22-26页
     ·标签树结构第22-23页
     ·标签树结构与DOM、SAX第23-24页
     ·标签树模板第24-26页
     ·标签树的相似性计算第26页
   ·网页文档记录的提取第26-31页
     ·从不同站点提取不同模板第28-30页
     ·一个模板类的提取过程第30页
     ·从非模板内容中提取文档记录第30-31页
   ·实验及结果分析第31-39页
     ·从不同站点提取不同模板第31-32页
     ·模板的提取过程第32-33页
     ·非模板内容里的文档内容第33-35页
     ·网页文档记录的提取第35-37页
     ·不同抽取方法的比较第37-39页
   ·小结第39-40页
第四章 结合网页结构特征的话题识别第40-48页
   ·基于聚类的话题识别研究第40页
   ·结合网页结构特征的话题聚类第40-46页
     ·网页文档预处理第40-41页
     ·筛选文本特征第41-43页
     ·文档中不同记录块的文本第43-44页
     ·网页结构特征第44-45页
     ·简单层次聚类第45-46页
   ·实验及结果分析第46-47页
   ·小结第47-48页
第五章 网页话题识别应用系统第48-56页
   ·网页话题识别的系统设计第48-49页
   ·多线程多优先级队列网页爬虫第49-52页
     ·网页爬虫原理第49-50页
     ·网页爬虫实现第50-52页
   ·利用标签树模板解析网页与话题识别第52页
   ·数据库表结构设计第52-55页
     ·主要结构图第53页
     ·信息抽取与处理部分第53-54页
     ·话题识别部分第54-55页
   ·小结第55-56页
第六章 结论与展望第56-57页
参考目录第57-60页
致谢第60-61页
攻读硕士期间发表的论文第61-62页

论文共62页,点击 下载论文
上一篇:供应链应用中的RFID读写器—标签认证协议分析和设计
下一篇:基于数字图像处理的路面损害检测和评价方法研究