标签树模板在网页关键信息抽取及话题识别中的应用

目录	第1-5页
摘要	第5-6页
Abstract	第6-7页
第一章引言	第7-10页
·本课题的研究背景	第7页
·本文的研究主题	第7-8页
·问题的提出	第7-8页
·本课题的现状	第8页
·本文的主要工作	第8页
·本文的结构	第8-10页
第二章网页话题识别相关技术	第10-20页
·发展历史	第10-11页
·网页信息收集	第11-12页
·文档表示模型	第12-17页
·概率统计模型	第12-14页
·向量空间模型	第14-16页
·研究现状	第16-17页
·话题识别的聚类方法	第17-19页
·简单聚类	第17-18页
·基于层次的聚类	第18页
·基于划分的聚类	第18-19页
·小结	第19-20页
第三章基于标签树模板的网页信息抽取	第20-40页
·网页信息提取研究现状	第20-22页
·HTML标签树模板	第22-26页
·标签树结构	第22-23页
·标签树结构与DOM、SAX	第23-24页
·标签树模板	第24-26页
·标签树的相似性计算	第26页
·网页文档记录的提取	第26-31页
·从不同站点提取不同模板	第28-30页
·一个模板类的提取过程	第30页
·从非模板内容中提取文档记录	第30-31页
·实验及结果分析	第31-39页
·从不同站点提取不同模板	第31-32页
·模板的提取过程	第32-33页
·非模板内容里的文档内容	第33-35页
·网页文档记录的提取	第35-37页
·不同抽取方法的比较	第37-39页
·小结	第39-40页
第四章结合网页结构特征的话题识别	第40-48页
·基于聚类的话题识别研究	第40页
·结合网页结构特征的话题聚类	第40-46页
·网页文档预处理	第40-41页
·筛选文本特征	第41-43页
·文档中不同记录块的文本	第43-44页
·网页结构特征	第44-45页
·简单层次聚类	第45-46页
·实验及结果分析	第46-47页
·小结	第47-48页
第五章网页话题识别应用系统	第48-56页
·网页话题识别的系统设计	第48-49页
·多线程多优先级队列网页爬虫	第49-52页
·网页爬虫原理	第49-50页
·网页爬虫实现	第50-52页
·利用标签树模板解析网页与话题识别	第52页
·数据库表结构设计	第52-55页
·主要结构图	第53页
·信息抽取与处理部分	第53-54页
·话题识别部分	第54-55页
·小结	第55-56页
第六章结论与展望	第56-57页
参考目录	第57-60页
致谢	第60-61页
攻读硕士期间发表的论文	第61-62页