基于改进HITS算法及位置信息的关键网页信息抽取方法

目录	第1-6页
摘要	第6-7页
ABSTRACT	第7-9页
第一章前言	第9-14页
·研究背景和意义	第9-10页
·研究现状	第10-12页
·链接分析	第10-11页
·信息抽取与网络信息抽取	第11-12页
·本文工作	第12-13页
·研究工作	第12-13页
·研究成果	第13页
·论文的组织结构	第13-14页
第二章背景知识	第14-22页
·HTML与DOM模型	第14-15页
·HTML	第14页
·DOM	第14-15页
·网络爬虫	第15页
·信息抽取	第15-18页
·背景	第15-16页
·网页信息抽取	第16-17页
·页面分割	第17-18页
·链接分析	第18-22页
·PageRank算法	第18-19页
·HITS算法	第19-20页
·两类算法的优缺点	第20-22页
第三章 TimeWeightedHits算法——一种改进的HITS算法	第22-39页
·现有HITS算法的不足	第22页
·TimeWeightedHits算法的基本思想	第22-23页
·TimeWeightedHits算法的链接分析模型	第23-24页
·输入子图G的生成	第24-27页
·TimeWeightedHits算法的实现	第27-31页
·基本框架	第27-28页
·任务模块	第28-31页
·下载及分析模块	第31页
·实验及验证	第31-39页
·模拟数据集分析	第32-33页
·真实数据集实验	第33-39页
第四章基于位置信息的网页信息抽取方法	第39-58页
·基本流程	第39-41页
·排版树模型	第41-43页
·排版树的构造	第43-46页
·排版过程	第43-45页
·对于表格的处理	第45-46页
·人工定义并提取重要区域	第46-48页
·使用基于支持向量机的通用模板进行信息抽取	第48-51页
·支持向量机简介	第49-50页
·特征选择	第50页
·训练过程及测试过程	第50-51页
·实验及验证	第51-58页
·评价标准	第52页
·基于人工模板的POSPE方法的实验	第52-55页
·基于支持向量机的POSPE方法的实验	第55-58页
第五章总结与展望	第58-59页
·总结	第58页
·展望	第58-59页
参考文献	第59-63页
硕士研究生期间论文	第63-64页
致谢	第64-65页