首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于模板的Web新闻搜索技术的研究与实现

摘要第5-7页
ABSTRACT第7-8页
1 绪论第11-14页
    1.1 研究背景第11页
    1.2 研究目的和意义第11-12页
    1.3 研究目标和内容第12页
    1.4 论文结构第12-14页
2 国内外研究现状及分析第14-22页
    2.1 Web 搜索技术第14-15页
    2.2 Web 新闻抽取技术第15-18页
        2.2.1 信息抽取第15-16页
        2.2.2 Web 信息的抽取第16-18页
    2.3 新闻搜索引擎第18-22页
        2.3.1 搜索引擎的概念第18页
        2.3.2 搜索引擎的分类第18-20页
        2.3.3 现有新闻搜索引擎第20-22页
3 多爬虫的分布式架构研究第22-33页
    3.1 Web 新闻搜索总体方案第22-23页
    3.2 分布式架构设计第23-25页
    3.3 搜索任务的分发第25-30页
        3.3.1 搜索任务数据结构第25-26页
        3.3.2 任务分发算法第26-30页
        3.3.3 分发流程第30页
    3.4 爬虫设计第30-33页
4 新闻内容抽取的研究第33-41页
    4.1 新闻内容抽取方法第33页
    4.2 标签模板的自动化构建第33-37页
        4.2.1 分块标签排他性第34-35页
        4.2.2 构建标签模板时机第35页
        4.2.3 构造算法第35-37页
    4.3 基于模板的新闻内容抽取第37-38页
    4.4 新闻内容抽取器设计第38-41页
5 一个WEB 新闻搜索平台的开发第41-52页
    5.1 平台的需求分析第41-45页
        5.1.1 现状分析第41页
        5.1.2 平台的用例图第41-43页
        5.1.3 模板系统管理第43页
        5.1.4 Web 新闻搜索第43-44页
        5.1.5 新闻后期处理第44页
        5.1.6 非功能性需求第44-45页
    5.2 平台的设计第45-52页
        5.2.1 平台总体结构第45-46页
        5.2.2 平台开发技术第46页
        5.2.3 静态逻辑视图第46-49页
        5.2.4 动态逻辑视图第49-52页
6 实验和试用第52-60页
    6.1 新闻正文内容抽取实验第52-55页
        6.1.1 标签模板自动构建准确度第52-54页
        6.1.2 新闻内容抽取准确度第54-55页
    6.2 分布式多爬虫实验第55-57页
    6.3 平台的应用试点第57-60页
7 总结与展望第60-62页
    7.1 本文工作小结第60页
    7.2 展望第60-62页
参考文献第62-65页
致谢第65-66页
攻读学位期间发表的学术论文第66-68页

论文共68页,点击 下载论文
上一篇:基于统计学的资产组合模型改进
下一篇:视频检索中概念检测技术的研究与应用