面向用户体验需求的垂直搜索引擎的研究

摘要	第4-6页
Abstract	第6-7页
第1章绪论	第11-16页
1.1 研究背景	第11-13页
1.1.1 搜索引擎的出现	第11-12页
1.1.2 垂直搜索的出现	第12-13页
1.2 研究课题与意义	第13-15页
1.2.1 传统搜索引擎的不足	第13-14页
1.2.2 本文要实现的系统	第14-15页
1.2.3 研究意义	第15页
1.3 论文结构	第15-16页
第2章设计目标	第16-18页
2.1 系统设计目标	第16页
2.2 需要的技术	第16-18页
第3章爬行技术与信息提取	第18-25页
3.1 爬行技术简介	第18-19页
3.2 基于HTTP协议的爬行	第19-21页
3.2.1 http协议	第19-20页
3.2.2 WebClient	第20-21页
3.3 网页信息结构	第21页
3.4 网页信息提取方法	第21-24页
3.4.1 基于DOM树的方法	第21-22页
3.4.2 基于正则表达式的方法	第22-24页
3.5 对象信息的提取	第24-25页
第4章文本分类技术	第25-31页
4.1 文本信息模型	第25-26页
4.1.1 布尔模型	第25页
4.1.2 向量空间模型	第25-26页
4.2 中文分词	第26-27页
4.2.1 常用的分词方法	第26-27页
4.2.1.1 基于字符串匹配的分词方法	第26-27页
4.2.1.2 基于理解的分词方法	第27页
4.2.1.3 基于统计的分词方法	第27页
4.2.2 分词工具介绍	第27页
4.3 文本特征选择	第27-28页
4.3.1 文档频率	第28页
4.3.2 信息	第28页
4.3.3 卡方统计量	第28页
4.4 文本分类算法	第28-31页
4.4.1 Rocchio算法	第28-29页
4.4.2 朴素贝叶斯算法	第29页
4.4.3 K邻近算法	第29-30页
4.4.4 决策树算法	第30-31页
第5章系统设计与实现	第31-48页
5.1 数据的获取	第31-33页
5.1.1 数据目录的获取	第31-32页
5.1.2 笔记本页面的获取	第32-33页
5.1.3 笔记本图片的获取	第33页
5.2 数据的清洗	第33-35页
5.3 数据预处理	第35-39页
5.3.1 对象属性的筛选	第35页
5.3.2 噪音数据的处理	第35-36页
5.3.3 数据格式的统一	第36-38页
5.3.4 缺失数据的处理	第38-39页
5.4 参数与体验效果的关系	第39-40页
5.5 通用参数的处理	第40-41页
5.6 参数的排序关系	第41-42页
5.7 文本分类模型	第42-43页
5.7.1 分类的准备	第43页
5.7.2 分类过程	第43页
5.8 根据分类做排序	第43-44页
5.9 系统的整体架构	第44-48页
5.9.1 服务端处理流程	第46页
5.9.2 UI处理流程	第46页
5.9.3 通讯类	第46-48页
第6章总结与展望	第48-49页
参考文献	第49-51页
作者简介及在学期间所取得的科研成果	第51-52页
致谢	第52页