首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

新闻网页抽取技术的研究与实现

摘要第1-5页
ABSTRACT第5-9页
第一章 绪论第9-13页
 §1-1 新闻信息抽取的研究背景及意义第9页
 §1-2 信息抽取概述第9-11页
  1-2-1 信息抽取的发展历程及现状第9-10页
  1-2-2 信息抽取的评价标准第10-11页
 §1-3 论文工作第11页
 §1-4 论文章节安排第11-13页
第二章 新闻信息抽取第13-20页
 §2-1 新闻网页的结构特点及表示第13-15页
  2-1-1 新闻列表页第13-14页
  2-1-2 新闻详细页第14-15页
 §2-2 新闻信息抽取方法的选取第15-16页
  2-2-1 新闻信息抽取的一般方法和比较第15-16页
  2-2-2 抽取方法的特点分析及选择第16页
 §2-3 新闻信息抽取模型第16-19页
  2-3-1 新闻信息抽取的困难及分析第16-17页
  2-3-2 系统设计的目标第17-18页
  2-3-3 新闻信息抽取的一般步骤第18-19页
 §2-4 本章小结第19-20页
第三章 网页爬虫和网页聚类的研究第20-29页
 §3-1 网络爬虫的分析与研究第20-22页
  3-1-1 网络爬虫的概念第20页
  3-1-2 论文采用的网络爬虫第20-21页
  3-1-3 针对访问权限受限的网站解决方法第21-22页
 §3-2 网页聚类的分析与研究第22-27页
  3-2-1 聚类的概念第22-24页
  3-2-2 网页聚类和传统聚类的区别第24-25页
  3-2-3 网页相似性算法第25-27页
 §3-3 论文采用的聚类算法第27-28页
  3-3-1 基于正则表达式的页面划分第27-28页
  3-3-2 算法描述第28页
 §3-4 本章小结第28-29页
第四章 抽取规则的构造和实现第29-43页
 §4-1 新闻网页正文信息的抽取规则第29-35页
  4-1-1 正文抽取存在的问题和困难第29-30页
  4-1-2 现有方法的分析和研究第30-31页
  4-1-3 论文采用的抽取方法第31-34页
  4-1-4 基于中文标点符号的数据源定位第34-35页
 §4-2 新闻网页标题信息的抽取规则第35-40页
  4-2-1 新闻标题在网页上的特征和结构分析第35-36页
  4-2-2 基于IKAnalyzer 的新闻标题抽取第36-38页
  4-2-3 基于标签匹配和IKAnalyzer 相结合的抽取方法的实现第38-40页
 §4-3 新闻网页其他要素的抽取规则第40-41页
 §4-4 规则的存储及调用第41-42页
 §4-5 本章小结第42-43页
第五章 新闻网页信息抽取系统的设计与实现第43-52页
 §5-1 系统的总体框架第43-45页
  5-1-1 系统设计目标第43页
  5-1-2 系统的主要功能模块第43-45页
 §5-2 系统的设计和实现第45-49页
  5-2-1 网页分类处理第45-46页
  5-2-2 网站实时监控的实现第46-47页
  5-2-3 系统界面展示第47-49页
 §5-3 实验效果分析第49-51页
  5-3-1 聚类效果分析第49-50页
  5-3-2 抽取结果评估第50-51页
 §5-4 本章小结第51-52页
第六章 结论第52-53页
参考文献第53-55页
致谢第55页

论文共55页,点击 下载论文
上一篇:模糊自整定PID控制器的研究与设计
下一篇:基于路由切换的IPSec隧道化技术研究与设计