模板化Web文档的主题信息自动抽取方法研究

中文摘要	第1-6页
Abstract	第6-10页
第一章绪论	第10-17页
·论文的研究背景及意义	第10-12页
·国内外研究现状	第12-14页
·论文的研究内容及创新之处	第14-15页
·论文的组织结构	第15-17页
第二章相关技术和方法	第17-24页
·DOM介绍	第17-19页
·DOM定义	第17-18页
·DOM常用方法	第18-19页
·HTMLParser解析器	第19-20页
·模板化Web文档结构分析	第20-23页
·小结	第23-24页
第三章模板化文档的主题信息自动抽取方法设计	第24-51页
·主题信息自动抽取系统的框架	第24-28页
·Web文档预处理	第28-31页
·基本定义	第28-29页
·主题无关结点过滤	第29-31页
·无效结点过滤	第31页
·动态区域块的定位阶段	第31-38页
·DOM树匹配算法	第32-36页
·动态区域块的定位算法	第36-38页
·非主题链接块的过滤	第38-43页
·重复区域的定位	第38-42页
·非主题链接块的过滤	第42-43页
·主题数据的精确定位	第43-50页
·启发式规则定义	第43-45页
·初始化权值矩阵	第45-46页
·基于启发式规则的精确定位	第46-47页
·阈值选取及权值训练	第47-50页
·小结	第50-51页
第四章实验结果及分析	第51-62页
·系统原型	第51-54页
·实验结果及分析	第54-61页
·长度阈值估计方法的检验	第55-56页
·信息抽取系统评价	第56-61页
·小结	第61-62页
第五章总结和展望	第62-64页
·全文总结	第62-63页
·进一步的研究工作	第63-64页
参考文献	第64-67页
在校期间参加的科研项目和发表的论文	第67-68页
附件	第68-70页
致谢	第70-71页