Web信息自动标引研究

摘要	第5-7页
Abstract	第7-8页
第1章绪论	第14-21页
1.1 研究背景	第14-17页
1.2 研究意义	第17-19页
1.3 研究目标与内容	第19页
1.4 论文的组织结构	第19-21页
第2章 Web信息自动标引相关研究	第21-35页
2.1 Web信息采集的研究	第21-23页
2.2 Web信息抽取的研究	第23-26页
2.3 自动标引的研究	第26-28页
2.4 众多研究所涉及的算法	第28-35页
第3章 Web构架分析及信息采集	第35-41页
3.1 HTML、XML和DOM	第35-38页
3.2 HTML转换为XML	第38-41页
第4章 Web信息抽取关键技术：信息块判析	第41-47页
4.1 网页坐标系	第41-42页
4.2 VIPS算法	第42-43页
4.3 网页九宫格	第43-44页
4.4 网页信息去噪技术	第44-47页
第5章三种类型网站的关键信息块判定	第47-68页
5.1 新闻类站点	第48-56页
5.1.1 网站特点简介	第48-49页
5.1.2 基于不同分割比例的信息块提取实验	第49-56页
5.2 体育类站点	第56-62页
5.2.1 网站特点简介	第56页
5.2.2 基于不同分割比例的信息块提取实验	第56-62页
5.3 科学类网站	第62-68页
5.3.1 网站特点简介	第62页
5.3.2 基于不同分割比例的信息块提取实验	第62-68页
第6章标引词抽取及实现技术	第68-77页
6.1 标引词	第68-69页
6.1.1 标引词的来源	第68-69页
6.1.2 标引词的评价	第69页
6.2 科学类、新闻类网页标引源权重的探析	第69-74页
6.2.1 网页标引源权重设计	第69-70页
6.2.2 科学类站点网页各标引源表达能力统计与分析	第70-73页
6.2.3 新闻类站点网页各标引源表达能力统计与分析	第73-74页
6.3 自动标引的实现与评价	第74-77页
6.3.1 自动标引实现步骤	第74-75页
6.3.2 实验结果评价	第75-77页
第7章 Web信息自动标引系统设计与实现	第77-92页
7.1 系统开发环境	第77页
7.1.1 系统硬件配置	第77页
7.1.2 系统开发软件环境	第77页
7.2 系统开发工作流程	第77-79页
7.3 系统简介	第79-80页
7.4 系统模块功能介绍	第80-88页
7.4.1 Web页面采集及预处理模块	第80-81页
7.4.2 Web页面数据处理及检验模块	第81-85页
7.4.3 数据浏览模块	第85页
7.4.4 标引模块	第85-86页
7.4.5 标引结果查询模块	第86-87页
7.4.6 参数设置模块	第87页
7.4.7 帮助模块	第87-88页
7.5 系统数据库结构	第88-92页
7.5.1 数据库设计	第88-89页
7.5.2 数据库实现	第89-92页
第8章总结与展望	第92-95页
8.1 论文工作总结	第92-93页
8.2 工作展望	第93-95页
参考文献	第95-104页
攻读博士学位期间主要研究成果	第104-106页
致谢	第106页