垂直搜索引擎中Web信息抽取技术研究

摘要	第1-4页
ABSTRACT	第4-8页
第一章绪论	第8-14页
·研究背景	第8-9页
·研究现状	第9-12页
·Web信息抽取技术研究现状	第9-11页
·搜索引擎发展现状	第11-12页
·研究内容	第12-13页
·本文组织结构	第13-14页
第二章 Web信息抽取及垂直搜索引擎技术	第14-22页
·DOM技术	第14-15页
·DOM	第14页
·Cobra软件	第14-15页
·分装器	第15-16页
·Web信息抽取评价指标	第16-17页
·文本预处理	第17-19页
·文本分类	第17-18页
·中文分词	第18-19页
·Lucene工具包	第19页
·垂直搜索引擎原理	第19-21页
·本章小结	第21-22页
第三章基于标签序列的 Web页面主题信息抽取方法研究	第22-42页
·引言	第22-23页
·相关概念与分析	第23-26页
·相关概念	第23页
·页面结构分析	第23-25页
·主题属性页面显示格式特征分析	第25-26页
·主题属性页面表示方式特征分析	第26页
·一种基于标签序列的Web页面主题信息抽取方法	第26-36页
·相关策略	第26-27页
·相关定义	第27-29页
·基于标签序列的Web页面主题信息抽取模型	第29-30页
·样本训练	第30-33页
·主题信息抽取	第33-36页
·实验	第36-40页
·实验过程	第36-39页
·实验分析	第39-40页
·本章小结	第40-42页
第四章基于可信度的Web页面主题新属性发现	第42-59页
·引言	第42-43页
·可信度	第43-44页
·一种基于可信度的 Web页面主题新属性发现方法	第44-54页
·证据定义	第44-45页
·基于可信度的Web页面主题新属性发现模型	第45-46页
·字体关系可信度	第46-49页
·背景关系可信度	第49-51页
·待抽取属性名与已抽取属性名拥有相同父节点可信度	第51-52页
·待抽取属性名与已抽取属性名格式相同可信度	第52-53页
·待抽取属性名与用户感兴趣范围关系可信度	第53-54页
·实验	第54-58页
·实验过程	第54-57页
·实验分析	第57-58页
·本章小结	第58-59页
第五章垂直搜索引擎原型系统设计	第59-68页
·系统整体框架	第59页
·总体结构	第59-62页
·模块介绍	第60页
·系统处理流程	第60-62页
·专业网络蜘蛛	第62页
·总体设计	第62-67页
·URL队列管理子模块	第64-65页
·主题信息抽取与新属性发现子模块	第65-67页
·本章小结	第67-68页
第六章总结和展望	第68-70页
·本文工作总结	第68页
·进一步展望	第68-70页
参考文献	第70-75页
致谢	第75-76页
攻读学位期间主要的研究成果	第76页