首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

大规模网页信息抽取技术研究

摘要第1-7页
Abstract第7-9页
目录第9-12页
第一章 绪论第12-19页
   ·研究背景及意义第12-13页
   ·网页信息抽取研究现状及方法第13-14页
     ·信息抽取技术研究状况第13页
     ·网页信息抽取常用方法第13-14页
   ·自然语言文本信息抽取第14-17页
     ·国内外文本信息抽取研究现状第14-15页
     ·文本信息抽取关键任务第15-17页
   ·信息抽取发展趋势第17页
   ·课题任务第17页
   ·论文结构第17-18页
   ·本章小结第18-19页
第二章 大规模网页数据的采集和处理第19-32页
   ·系统流程介绍第19-20页
   ·URL收集和整理选用的方法第20页
   ·链接分析算法第20-24页
     ·HITS算法与PageRank算法的比较分析第21-22页
     ·PageRank算法第22-24页
   ·网页和超链的收集整理第24-25页
   ·Hadoop下的PageRank计算第25-31页
     ·Hadoop技术介绍第25-26页
     ·Hadoop主要成员第26-28页
     ·Hadoop平台的搭建第28-29页
     ·Hadoop平台下运行PageRank第29-31页
   ·本章小结第31-32页
第三章 网页正文信息抽取技术研究第32-45页
   ·网页信息抽取模块流程第32-33页
   ·DOM树相关知识介绍第33-34页
   ·网页模板抽取信息第34-38页
     ·网页模板化信息提取算法第35-36页
     ·网页模板化信息提取方法步骤第36-37页
     ·网页模板化信息提取方法实验结果第37-38页
   ·WIEHF方法抽取信息第38-43页
     ·WIEHF方法计算第38-41页
     ·WIEHF方法步骤第41页
     ·WIEHF实验验证和结果分析第41-43页
   ·模板方法和WIEHF方法的实验结果对比第43-44页
   ·本章小结第44-45页
第四章 文本信息抽取技术研究第45-64页
   ·分词介绍第45页
   ·中文信息抽取模块简介第45-47页
   ·代词消解第47-51页
     ·代词消解方法引出第47-48页
     ·指代消解方法介绍第48-49页
     ·消解规则第49页
     ·基于统计的消解指代方法第49-51页
   ·句法分析和句子成分介绍第51-53页
     ·现代汉语句子成分第51-52页
     ·现代汉语句子结构和知网介绍第52-53页
   ·基于词性合并的浅层句法分析方法第53-59页
     ·方法的引出第53页
     ·词性合并规则介绍第53-54页
     ·句子句式处理介绍第54-56页
     ·基于词性合并的浅层句法分析整体介绍第56页
     ·句法分析方法第56-57页
     ·句法分析实验结果第57-59页
   ·各阶段效果图第59-63页
   ·本章小结第63-64页
第五章 结论与展望第64-66页
致谢第66-67页
参考文献第67-71页
攻读硕士学位期间发表的论文和科研情况第71-72页
 发表论文第71页
 项目第71-72页
附录第72-74页

论文共74页,点击 下载论文
上一篇:GIF图像隐写分析技术研究
下一篇:M公司PLM系统开发管理案例研究