首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--计算机网络论文--一般性问题论文

基于分类语义的Web信息抽取机制的研究与实现

独创性声明第1-5页
摘要第5-6页
Abstract第6-7页
目录第7-9页
第一章 前言第9-13页
 1.1 研究背景第9-10页
 1.2 问题的提出第10-11页
 1.3 本文的工作与组织结构第11-13页
第二章 研究基础第13-28页
 2.1 搜索引擎概述第13-16页
  2.1.1 搜索引擎的分类第13-14页
  2.1.2 搜索引擎的结构和主要技术第14-16页
 2.2 搜索引擎的检索技术第16-19页
 2.3 搜索引擎的排序方法第19-22页
 2.4 网页内容提取策略第22-23页
 2.5 搜索引擎的发展趋势第23-25页
 2.6 Java技术综述第25-27页
  2.6.1 Java语言的特点第25-26页
  2.6.2 Java计算平台第26-27页
 2.7 小结第27-28页
第三章 SECS系统的总体结构和搜索器的设计第28-34页
 3.1 SECS系统的体系结构第28-31页
  3.1.1 SECS系统的体系结构第29页
  3.1.2 SECS系统的功能模块第29-31页
 3.2 基于分类语义的搜索器的结构设计第31-33页
  3.2.1 C_Spider的搜索策略第31-32页
  3.2.2 C_SPider的基本结构及工作原理第32-33页
 3.3 小结第33-34页
第四章 分类语义的抽取机制第34-47页
 4.1 传统网页分类技术第34-37页
  4.1.1 人工分类方法第34-35页
  4.1.2 自动分类方法第35-37页
 4.2 基于分类语义的自动分类方法第37-40页
  4.2.1 URL结构分析第37-38页
  4.2.2 超链接结构分析第38-39页
  4.2.3 基于分类语义的自动分类技术第39-40页
 4.3 分类语义的抽取方法第40-46页
  4.3.1 网页分块算法第40-42页
  4.3.2 导航块的获取第42页
  4.3.3 栏目信息导航块的确定第42-46页
 4.4 小结第46-47页
第五章 C_Spider的详细设计与实现第47-65页
 5.1 C_Spider的整体设计第47-50页
 5.2 C_Spider的实现第50-59页
  5.2.1 C_Spider的运行机制第50-51页
  5.2.2 C_Spider的作业管理第51-52页
  5.2.3 C_Spider的作业处理第52-54页
  5.2.4 网页的归类第54-56页
  5.2.5 HT恻压文档解析第56-59页
 5.3 多线程技术在 C_Spider中的应用第59-63页
  5.3.1 创建 SpiderThread.java线程第59-61页
  5.3.2 多线程的实现第61-63页
 5.4 C_Spider性能评价第63-64页
 5.5 小结第64-65页
第六章 结束语第65-66页
参考文献第66-69页
致谢第69页

论文共69页,点击 下载论文
上一篇:国际避税与反避税的法律问题研究
下一篇:国有独资公司法人治理结构研究