产品库平台系统的研究和实现
| 摘要 | 第1-5页 |
| Abstract | 第5-11页 |
| 第1章 绪论 | 第11-18页 |
| ·课题背景 | 第11-13页 |
| ·国内外现状 | 第13-15页 |
| ·产品库 | 第13-14页 |
| ·产品的自动化识别 | 第14-15页 |
| ·数据分布式存储和并行处理 | 第15页 |
| ·本文研究内容 | 第15-16页 |
| ·文章组织结构 | 第16-18页 |
| 第2章 实现产品库平台的技术背景 | 第18-25页 |
| ·分布式文件系统——HDFS | 第18-21页 |
| ·HDFS设计原则和目标 | 第19-20页 |
| ·HDFS架构和实现 | 第20-21页 |
| ·分布式计算框架——MapReduce | 第21-22页 |
| ·原理 | 第21页 |
| ·实现 | 第21-22页 |
| ·Hadoop streaming技术 | 第22-23页 |
| ·Hadoop 平台的局限性 | 第23-25页 |
| 第3章 产品库平台系统设计 | 第25-41页 |
| ·设计目标和原则 | 第25-26页 |
| ·产品库整体系统架构 | 第26-27页 |
| ·系统构成及实现技术 | 第27-36页 |
| ·商品网页数据预处理 | 第27-30页 |
| ·关键特征抽取 | 第30-33页 |
| ·产品分类 | 第33页 |
| ·产品信息融合 | 第33-34页 |
| ·支持知识库:同义词表、商业词库和关键属性库 | 第34-35页 |
| ·外部访问接口服务 | 第35-36页 |
| ·外部访问接口服务 | 第36-40页 |
| ·组成部分及功能 | 第36-37页 |
| ·数据分布式存储系统 | 第37-38页 |
| ·并行访问系统 | 第38-40页 |
| ·本章小结 | 第40-41页 |
| 第4章 商品标题中属性实体识别算法研究和改进 | 第41-51页 |
| ·问题描述和定义 | 第41页 |
| ·属性实体识别算法 | 第41-48页 |
| ·基准算法: CRF命名实体识别方法 | 第42-43页 |
| ·改进算法:基于商业词库的属性实体识别算法 | 第43-48页 |
| ·效果实验分析 | 第48-50页 |
| ·正确率测试实验 | 第48-49页 |
| ·属性实体覆盖率实验分析 | 第49-50页 |
| ·改进算法的优势 | 第50页 |
| ·本章小结 | 第50-51页 |
| 第5章 商品属性规约算法研究和改进 | 第51-59页 |
| ·问题描述和定义 | 第51-52页 |
| ·商品属性规约算法 | 第52-53页 |
| ·关键属性库自动化构建 | 第52-53页 |
| ·关键属性知识库的形式化定义 | 第53页 |
| ·属性重要度计算算法 | 第53-56页 |
| ·基准算法:基于频率统计算法 | 第53页 |
| ·改进算法:基于用户行为的挖掘算法 | 第53-54页 |
| ·改进算法:基于文本内容的挖掘算法 | 第54-56页 |
| ·算法效果实验对比 | 第56-58页 |
| ·评测数据集 | 第56页 |
| ·评测指标 | 第56-57页 |
| ·评测结果 | 第57-58页 |
| ·改进算法的优势 | 第58页 |
| ·本章小结 | 第58-59页 |
| 第6章 整体产品识别算法研究和改进 | 第59-64页 |
| ·产品分类算法 | 第60-61页 |
| ·基准算法:基于人工规则的分类算法 | 第61页 |
| ·改进算法:基于topK重要属性的分类算法 | 第61页 |
| ·可能的改进算法:基于机器学习理论的分类算法 | 第61页 |
| ·产品分类算法效率分析 | 第61-62页 |
| ·整体产品识别算法有效性验证实验 | 第62-63页 |
| ·整体产品识别算法 | 第62页 |
| ·评测数据集 | 第62页 |
| ·评测指标 | 第62-63页 |
| ·评测结果 | 第63页 |
| ·本章小结 | 第63-64页 |
| 第7章 总结和展望 | 第64-66页 |
| ·全文总结 | 第64-65页 |
| ·研究展望 | 第65-66页 |
| 参考文献 | 第66-68页 |
| 致谢 | 第68页 |