首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于Web的实体信息提取和搜索研究

摘要第5-6页
Abstract第6-7页
第一章 绪论第11-20页
    1.1 研究工作的背景与意义第11-12页
    1.2 搜索引擎的研究现状第12-17页
        1.2.1 传统的搜索引擎技术第12-14页
        1.2.2 基于Web的实体搜索研究现状第14-17页
        1.2.3 搜索引擎技术存在的问题第17页
    1.3 论文主要研究内容第17-18页
    1.4 论文的结构安排第18-20页
第二章 基于WEB的实体搜索相关技术第20-35页
    2.1 Web实体搜索引擎的体系结构第20-21页
    2.2 垂直爬虫技术第21-22页
    2.3 Web实体信息抽取技术第22-32页
        2.3.1 Web网页结构第22-23页
        2.3.2 信息抽取技术第23-26页
        2.3.3 Web信息抽取技术第26-32页
    2.4 信息检索模型第32-34页
    2.5 本章小结第34-35页
第三章 基于链接模版树的垂直爬虫第35-49页
    3.1 开源网络爬虫Nutch第35-38页
        3.1.1 Nutch的运行流程第35-36页
        3.1.2 Nutch插件机制第36-38页
    3.2 网页隧道特征第38-39页
    3.3 基于链接模版树的垂直爬虫第39-44页
        3.3.1 目标网页链接树第40-41页
        3.3.2 抽取链接模版第41-43页
        3.3.3 基于链接模版树的爬虫第43-44页
    3.4 实验与分析第44-48页
        3.4.1 召回率实验第44-45页
        3.4.2 对比实验第45-48页
    3.5 本章小结第48-49页
第四章 基于DOM树和XSL的WEB实体信息抽取第49-65页
    4.1 相关技术第49-50页
        4.1.1 XSL第49页
        4.1.2 XPath第49-50页
        4.1.3 XML第50页
    4.2 目前Web信息提取方法的缺点第50-52页
    4.3 基于DOM树和XSL的实体信息抽取第52-57页
        4.3.1 Web页面预处理第52-53页
        4.3.2 XML文档解析第53页
        4.3.3 路径规则提取第53-55页
        4.3.4 XSL转换第55-56页
        4.3.5 整体抽取过程描述第56-57页
    4.4 网页中多实体信息提取第57-61页
        4.4.1 提取最大数据子树第58-59页
        4.4.2 提取多实体规则第59-61页
    4.5 实验与分析第61-64页
    4.6 本章小结第64-65页
第五章 基于LUCENE的实体索引和搜索第65-80页
    5.1 构建实体索引第65-70页
        5.1.1 Lucene分析和研究第66-69页
        5.1.2 实体索引结构第69-70页
    5.2 实体检索结果排序第70-74页
        5.2.1 Lucene评分机制第70-72页
        5.2.2 Lucene评分改进第72-74页
    5.3 实验与分析第74-79页
        5.3.1 数据集第74-75页
        5.3.2 评价指标第75页
        5.3.3 实验及结果第75-77页
        5.3.4 实验演示第77-79页
    5.4 本章小结第79-80页
第六章 总结与展望第80-82页
致谢第82-83页
参考文献第83-87页
在学期间的研究成果第87-88页

论文共88页,点击 下载论文
上一篇:子弹底部外观光电检测系统关键技术研究
下一篇:广州市洪桥街道流动人口管理信息系统的设计与实现