首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--文字信息处理论文

基于TABLE布局和隐马尔可夫模型的Web自由文本信息抽取

摘要第1-4页
Abstract第4-10页
第1章 绪论第10-18页
   ·课题背景第10-12页
   ·信息抽取的概念第12-13页
   ·信息抽取的历史第13-16页
   ·本文研究目标与内容第16-17页
   ·本章小节第17-18页
第2章 理论基础和相关技术第18-27页
   ·信息抽取第18-20页
     ·信息抽取与信息获取的区别第18-19页
     ·信息抽取的主要任务第19-20页
   ·隐马尔可夫模型第20-26页
     ·隐马尔可夫模型的由来第20页
     ·Markov过程和Markov链第20-22页
     ·HMM的基本概念第22页
     ·HMM的基本算法第22-23页
     ·前向-后向算法第23-24页
     ·Viterbi算法第24页
     ·Baum-Welch算法第24-26页
   ·本章小结第26-27页
第3章 系统组成与设计第27-34页
   ·设计目标第27页
   ·设计思想第27-28页
   ·系统架构第28-32页
     ·主题网页库第29-31页
     ·网页正文提取器第31-32页
     ·网页正文自由文本识别器第32页
     ·信息抽取器第32页
     ·信息存储系统第32页
   ·本章小节第32-34页
第4章 网页的自由文本提取第34-47页
   ·网页正文的界定第34页
   ·网页冗余信息与网页模版第34-36页
   ·网页冗余信息的负面影响第36-42页
     ·冗余信息违反三个原则第37-38页
     ·对搜索相关度的影响第38-40页
     ·对于链接分析的影响第40-41页
     ·对主题搜索的影响第41页
     ·对信息抽取的影响第41-42页
   ·目前的模版检测与去除研究第42-46页
     ·基于Pagelet的检测算法第42-43页
     ·基于树的编辑距离的模版检测第43-46页
     ·SST算法第46页
   ·本章小节第46-47页
第5章 基于TABLE布局的模版检测与去除第47-62页
   ·基于TABLE布局的分块第47-52页
   ·TABLE相似度算法第52-54页
   ·备选模版节点去重第54-55页
   ·模版节点聚类处理第55页
   ·模版去除与正文提取第55-56页
   ·实验结果与评估第56-58页
   ·基于TABLE布局的RTDM改进算法第58-61页
   ·本章小节第61-62页
第6章 自由文本与半结构化文本识别第62-68页
   ·自由文本,结构化文本和半结构化文本第62-63页
     ·自由文本第62页
     ·结构化文本第62页
     ·半结构化文本第62-63页
   ·自由文本相关度算法第63-68页
     ·算法概述第63页
     ·正文分段第63-64页
     ·相关度计算第64-65页
     ·算法优势与不足第65-66页
     ·实验结果与评估第66-67页
     ·本章小节第67-68页
第7章 Web自由文本的信息抽取第68-83页
   ·信息抽取的机器学习方法第68页
   ·统计机器学习的建模第68-73页
     ·统计机器学习的特征选择第69页
     ·目前的几种信息抽取统计学习方法第69-73页
   ·分词处理与词性标注第73-74页
   ·基于POS的HMM模型训练第74-78页
   ·实验结果及评估第78-81页
   ·应用集成第81-82页
   ·本章小节第82-83页
第8章 总结和展望第83-85页
参考文献第85-88页
致谢第88页

论文共88页,点击 下载论文
上一篇:新型磁致伸缩合金Fe-Ga深过冷与定向生长
下一篇:利用精密冲压级进模具技术提升效率改善质量的研究