首页--工业技术论文--自动化技术、计算机技术论文--计算技术、计算机技术论文--计算机的应用论文--信息处理(信息加工)论文--检索机论文

基于文本挖掘的轻量级搜索引擎

摘要第5-7页
Abstract第7-8页
第1章 绪论第9-19页
    1.1 研究背景和意义第9-11页
    1.2 国内外研究现状第11-17页
        1.2.1 微软必应搜索引擎第11-12页
        1.2.2 谷歌搜索引擎第12-13页
        1.2.3 360搜索引擎第13-14页
        1.2.4 百度搜索引擎第14-17页
    1.3 本论文研究内容和特色第17页
    1.4 论文组织结构第17-19页
第2章 相关理论第19-27页
    2.1 文本挖掘第19-20页
        2.1.1 文本挖掘的概念第19页
        2.1.2 文本挖掘的过程第19-20页
        2.1.3 文本挖掘关键技术和文本关联分析第20页
    2.2 搜索引擎第20-25页
        2.2.1 倒排索引技术第21-22页
        2.2.2 关键词tf-idf权重第22-23页
        2.2.3 搜索引擎的性能评价指标第23-25页
    2.3 本章小结第25-27页
第3章 基于文本挖掘的搜索引擎系统第27-35页
    3.1 文本相似度(关联度)的挖掘第27-29页
        3.1.1 分词第27页
        3.1.2 生成两篇文档的单词集合第27-28页
        3.1.3 合并两篇文档的单词集合第28页
        3.1.4 生成两篇文档的特征向量第28页
        3.1.5 计算两篇文档的余弦相似度第28-29页
    3.2 建立搜索引擎的索引第29-32页
        3.2.1 建立词典倒排索引第29-30页
        3.2.2 建立单词和网页的倒排索引第30-31页
        3.2.3 建立页面单词权重索引和页面模索引第31-32页
    3.3 处理用户查询第32-33页
        3.3.1 查询词纠错第32页
        3.3.2 找到包含用户查询词的文档集合第32页
        3.3.3 对候选文档集合进行排序第32-33页
    3.4 本章小结第33-35页
第4章 轻量级搜索引擎的性能优化第35-43页
    4.1 利用epoll模型代替传统的select,poll模型第35-36页
    4.2 建立用户查询历史纪录缓存第36-38页
        4.2.1 查询词纠错结果缓存第36-37页
        4.2.2 查询词和标题摘要缓存第37页
        4.2.3 标题和标题对应的内容缓存第37-38页
    4.3 改进传统的距离编辑算法第38-40页
    4.4 改进搜索引擎的索引算法第40-42页
        4.4.1 实现方法和算法第40-42页
        4.4.2 改进算法试验结果与分析第42页
    4.5 使用多线程取代多进程第42页
    4.6 本章小结第42-43页
第5章 搜索引擎系统实现第43-53页
    5.1 系统结构和运行流程图第43-44页
    5.2 相关类及其说明第44-49页
    5.3 功能说明第49-52页
        5.3.1 主线程第49-50页
        5.3.2 工作线程工作流程第50-51页
        5.3.3 缓存线程管理系统缓存第51-52页
        5.3.4 查询流程第52页
    5.4 本章小结第52-53页
第6章 实验及结果分析第53-57页
    6.1 处理汉字的编辑距离第53页
    6.2 建立磁盘缓存文件第53页
    6.3 网页搜索第53-54页
        6.3.1 建立倒排索引第53-54页
        6.3.2 网页查询功能测试第54页
        6.3.3 加入缓存管理线程管理历史记录缓存第54页
    6.4 论文实验过程中遇到的疑难问题和解决方案第54-55页
    6.5 本章小结第55-57页
第7章 总结和展望第57-59页
参考文献第59-63页
致谢第63-65页
在校期间发表的论文第65页

论文共65页,点击 下载论文
上一篇:let-7a和miR-21在乳腺癌组织中的表达及其对乳腺癌细胞作用的研究
下一篇:桦褐孔菌人参配伍降血糖活性研究