大规模网页信息抽取技术研究

摘要	第1-7页
Abstract	第7-9页
目录	第9-12页
第一章绪论	第12-19页
·研究背景及意义	第12-13页
·网页信息抽取研究现状及方法	第13-14页
·信息抽取技术研究状况	第13页
·网页信息抽取常用方法	第13-14页
·自然语言文本信息抽取	第14-17页
·国内外文本信息抽取研究现状	第14-15页
·文本信息抽取关键任务	第15-17页
·信息抽取发展趋势	第17页
·课题任务	第17页
·论文结构	第17-18页
·本章小结	第18-19页
第二章大规模网页数据的采集和处理	第19-32页
·系统流程介绍	第19-20页
·URL收集和整理选用的方法	第20页
·链接分析算法	第20-24页
·HITS算法与PageRank算法的比较分析	第21-22页
·PageRank算法	第22-24页
·网页和超链的收集整理	第24-25页
·Hadoop下的PageRank计算	第25-31页
·Hadoop技术介绍	第25-26页
·Hadoop主要成员	第26-28页
·Hadoop平台的搭建	第28-29页
·Hadoop平台下运行PageRank	第29-31页
·本章小结	第31-32页
第三章网页正文信息抽取技术研究	第32-45页
·网页信息抽取模块流程	第32-33页
·DOM树相关知识介绍	第33-34页
·网页模板抽取信息	第34-38页
·网页模板化信息提取算法	第35-36页
·网页模板化信息提取方法步骤	第36-37页
·网页模板化信息提取方法实验结果	第37-38页
·WIEHF方法抽取信息	第38-43页
·WIEHF方法计算	第38-41页
·WIEHF方法步骤	第41页
·WIEHF实验验证和结果分析	第41-43页
·模板方法和WIEHF方法的实验结果对比	第43-44页
·本章小结	第44-45页
第四章文本信息抽取技术研究	第45-64页
·分词介绍	第45页
·中文信息抽取模块简介	第45-47页
·代词消解	第47-51页
·代词消解方法引出	第47-48页
·指代消解方法介绍	第48-49页
·消解规则	第49页
·基于统计的消解指代方法	第49-51页
·句法分析和句子成分介绍	第51-53页
·现代汉语句子成分	第51-52页
·现代汉语句子结构和知网介绍	第52-53页
·基于词性合并的浅层句法分析方法	第53-59页
·方法的引出	第53页
·词性合并规则介绍	第53-54页
·句子句式处理介绍	第54-56页
·基于词性合并的浅层句法分析整体介绍	第56页
·句法分析方法	第56-57页
·句法分析实验结果	第57-59页
·各阶段效果图	第59-63页
·本章小结	第63-64页
第五章结论与展望	第64-66页
致谢	第66-67页
参考文献	第67-71页
攻读硕士学位期间发表的论文和科研情况	第71-72页
发表论文	第71页
项目	第71-72页
附录	第72-74页