首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于TPSN-LS和Hadoop的Web信息抽取技术研究

摘要第4-5页
abstract第5页
1 绪论第9-15页
    1.1 研究背景及意义第9-10页
    1.2 研究现状第10-12页
        1.2.1 国外研究现状第10-11页
        1.2.2 国内研究现状第11页
        1.2.3 发展趋势第11-12页
    1.3 研究内容及章节安排第12-15页
        1.3.1 研究内容第12页
        1.3.2 章节安排第12-15页
2 相关技术研究第15-31页
    2.1 信息抽取介绍第15-19页
        2.1.1 常见Web信息抽取技术及不足第15-17页
        2.1.2 信息抽取层次及评价指标第17-18页
        2.1.3 信息抽取与信息检索的异同点第18-19页
    2.2 Hadoop技术简介第19-24页
        2.2.1 分布式文件系统HDFS第22-23页
        2.2.2Map/Reduce并行计算框架第23-24页
    2.3 复杂网络第24-27页
        2.3.1 复杂网络简述第24-25页
        2.3.2 复杂网络时间同步算法TPSN第25-27页
    2.4 网络爬虫原理第27-31页
        2.4.1 网络爬虫的工作原理及系统结构第27-29页
        2.4.2 分布式网络爬虫的工作原理第29-31页
3 面向Web信息抽取的复杂网络TPSN算法改进第31-39页
    3.1 引入复杂网络时间同步算法的必要性第31-32页
    3.2 面向Web信息抽取的复杂网络参数改进第32-35页
        3.2.1 面向Web信息抽取的复杂网络模型第32-34页
        3.2.2 面向Web信息抽取的复杂网络参数改进及重定义第34-35页
    3.3 面向Web信息抽取的复杂网络时间同步第35-39页
        3.3.1 基于最小二乘估计法的时间同步算法TPSN-LS第35-37页
        3.3.2 TPSN-LS时间同步施行流程第37-39页
4 基于TPSN-LS的Web信息抽取算法研究第39-49页
    4.1 DOM树模型第39-41页
        4.1.1 DOM树简述第39-40页
        4.1.2 DOM节点层次划分第40-41页
    4.2 TPSN-LS改进DOM树Web抽取的算法框架第41-44页
        4.2.1 算法框架设计第41-42页
        4.2.2 基于TPSN-LS的DOM树网络构造第42-44页
    4.3 核心模块第44-49页
        4.3.1 页面预处理第44-46页
        4.3.2 定位数据区域第46-47页
        4.3.3 目标数据抽取第47-49页
5 基于TPSN-LS和Hadoop的Web信息抽取系统实现第49-67页
    5.1 采用Hadoop进行Web信息抽取的优势第49-50页
    5.2 基于TPSN-LS和Hadoop的Web信息抽取系统第50-57页
        5.2.1 系统功能模块第50-52页
        5.2.2 抽取基本流程第52-54页
        5.2.3 HDFS数据存储结构第54-55页
        5.2.4 系统的主要类第55-57页
    5.3 并行化信息抽取的Map/Reduce实现第57-63页
        5.3.1 CrawlerDriver第57-58页
        5.3.2 Parser Driver第58-59页
        5.3.3 OptimizerDriver第59-61页
        5.3.4 MergeDriver第61-62页
        5.3.5 HtmlToXMLDriver第62-63页
    5.4 实验分析第63-67页
        5.4.1 Hadoop集群网络搭建第63-65页
        5.4.2 实验过程与结果分析第65-67页
6 总结与展望第67-69页
    6.1 工作总结第67页
    6.2 未来展望第67-69页
参考文献第69-75页
作者攻读学位期间发表学术论文清单第75-77页
致谢第77页

论文共77页,点击 下载论文
上一篇:光学相干弹性成像的图像处理
下一篇:基于TLD模型的视频目标跟踪方法研究