首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--一般性问题论文--理论、方法论文--算法理论论文

基于改进HITS算法及位置信息的关键网页信息抽取方法

目录第1-6页
摘要第6-7页
ABSTRACT第7-9页
第一章 前言第9-14页
   ·研究背景和意义第9-10页
   ·研究现状第10-12页
     ·链接分析第10-11页
     ·信息抽取与网络信息抽取第11-12页
   ·本文工作第12-13页
     ·研究工作第12-13页
     ·研究成果第13页
   ·论文的组织结构第13-14页
第二章 背景知识第14-22页
   ·HTML与DOM模型第14-15页
     ·HTML第14页
     ·DOM第14-15页
   ·网络爬虫第15页
   ·信息抽取第15-18页
     ·背景第15-16页
     ·网页信息抽取第16-17页
     ·页面分割第17-18页
   ·链接分析第18-22页
     ·PageRank算法第18-19页
     ·HITS算法第19-20页
     ·两类算法的优缺点第20-22页
第三章 TimeWeightedHits算法——一种改进的HITS算法第22-39页
   ·现有HITS算法的不足第22页
   ·TimeWeightedHits算法的基本思想第22-23页
   ·TimeWeightedHits算法的链接分析模型第23-24页
   ·输入子图G的生成第24-27页
   ·TimeWeightedHits算法的实现第27-31页
     ·基本框架第27-28页
     ·任务模块第28-31页
     ·下载及分析模块第31页
   ·实验及验证第31-39页
     ·模拟数据集分析第32-33页
     ·真实数据集实验第33-39页
第四章 基于位置信息的网页信息抽取方法第39-58页
     ·基本流程第39-41页
     ·排版树模型第41-43页
     ·排版树的构造第43-46页
     ·排版过程第43-45页
     ·对于表格的处理第45-46页
     ·人工定义并提取重要区域第46-48页
     ·使用基于支持向量机的通用模板进行信息抽取第48-51页
     ·支持向量机简介第49-50页
     ·特征选择第50页
     ·训练过程及测试过程第50-51页
     ·实验及验证第51-58页
       ·评价标准第52页
       ·基于人工模板的POSPE方法的实验第52-55页
       ·基于支持向量机的POSPE方法的实验第55-58页
第五章 总结与展望第58-59页
   ·总结第58页
   ·展望第58-59页
参考文献第59-63页
硕士研究生期间论文第63-64页
致谢第64-65页

论文共65页,点击 下载论文
上一篇:对日嵌入式软件外包工作量估算方式比较--以丰田汽车导航软件开发项目为例
下一篇:数据仓库技术在高校医疗管理决策中的应用研究