首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机软件论文--程序设计、软件工程论文--软件工程论文

基于网站语义结构的信息抽取系统的研究与实现

致谢第1-5页
中文摘要第5-6页
ABSTRACT第6-10页
1 引言第10-19页
   ·研究背景第10-11页
   ·信息抽取技术第11-15页
     ·信息抽取定义第11-12页
     ·信息抽取的应用对象第12-14页
     ·信息抽取的评价标准第14-15页
   ·网页信息抽取的实现方法第15-17页
     ·基于自然语言处理方式的信息抽取第15页
     ·基于Wrapper 归纳方式的信息抽取第15-16页
     ·基于模型的信息抽取第16页
     ·基于Ontology 方式的信息抽取第16页
     ·基于Wrapper 开发语言的信息抽取第16-17页
     ·基于HTML 结构的信息抽取第17页
   ·研究的内容和意义第17-18页
   ·论文的组织和安排第18页
   ·本章小结第18-19页
2 基于网站语义结构的信息抽取系统总体设计第19-22页
   ·基于网站语义结构的信息抽取系统的研究思路第19-20页
   ·系统的总体结构第20页
   ·开发平台选择第20-21页
   ·本章小结第21-22页
3 构建网站网页搜索器第22-40页
   ·问题描述第22页
   ·网页链接识别实现方法第22-25页
   ·链接属性判断实现方法第25-28页
   ·网页编码识别实现方法第28-31页
   ·其他问题处理方法第31-34页
     ·页面重定向问题第31-33页
     ·robots.txt 文件和Robots META 标签问题第33-34页
     ·一些需要注意其他问题第34页
   ·网第34-38页
     ·搜索策略第34-35页
     ·构建方式及作业管理第35-38页
     ·流程图第38页
   ·本章小结第38-40页
4 构建网站语义结构生成器第40-59页
   ·网站有向图第40-45页
     ·引入网站有向图的目的第40页
     ·表示方式与生成方法第40-43页
     ·表示方式与生成方法的改进第43-45页
   ·网页分类第45-52页
     ·引入网页分类的目的第45页
     ·网页分类的方法研究第45-47页
     ·网站内网页分类策略第47-49页
     ·基于网站语义的网页分类方法的提出第49页
     ·从网站语义分类出发解决问题的一个应用实例第49-52页
   ·网站语义结构生成算法第52-57页
   ·本章小结第57-59页
5 构建网页信息抽取器第59-71页
   ·网页表示第59-61页
     ·问题描述第59页
     ·网页的标记树表示方法第59页
     ·将网页转化为标记树实现方法第59-61页
   ·主题信息抽取第61-69页
     ·问题描述第61页
     ·主题信息所处区域确定、网页去噪及模板生成第61-69页
   ·标题信息抽取第69页
   ·本章小结第69-71页
6 结论和展望第71-73页
参考文献第73-75页
作者简历第75-76页

论文共76页,点击 下载论文
上一篇:基于8620的高清数字电视控制系统
下一篇:GSM移动电话的辐射电场分析