中文摘要 | 第1-5页 |
英文摘要 | 第5-11页 |
1 绪论 | 第11-21页 |
·研究背景和意义 | 第11-14页 |
·研究背景 | 第11-12页 |
·选题意义 | 第12-14页 |
·国内外研究现状 | 第14-16页 |
·文本分类研究现状 | 第15页 |
·文本分类难点 | 第15-16页 |
·主要研究内容和目的 | 第16-19页 |
·本文研究内容 | 第17-18页 |
·研究目的和创新点 | 第18-19页 |
·本文系统框架与组织结构 | 第19-21页 |
2 文本分类相关技术综述 | 第21-33页 |
·引言 | 第21页 |
·文本分类简介 | 第21-22页 |
·文本预处理与中文分词技术 | 第22-24页 |
·文本清理技术 | 第22-23页 |
·停用词去除 | 第23页 |
·中文分词技术 | 第23-24页 |
·文本表示技术 | 第24-26页 |
·向量空间模型 | 第24-25页 |
·词袋模型 | 第25页 |
·语义分析技术 | 第25-26页 |
·词语权值计算方法 | 第26-28页 |
·文档级的词语权值计算方法 | 第26页 |
·类别级的词语权值计算方法 | 第26-28页 |
·语料库级的词语权值计算方法 | 第28页 |
·分类算法 | 第28-30页 |
·k 近邻算法 | 第28-29页 |
·支持向量机算法 | 第29-30页 |
·语料库 | 第30-31页 |
·分类性能评估 | 第31-32页 |
·本章小结 | 第32-33页 |
3 简明语义分析 | 第33-53页 |
·语义分析技术在文本分类中的应用 | 第33-35页 |
·隐含语义分析 | 第34-35页 |
·明确语义分析 | 第35页 |
·简明语义分析的提出 | 第35-36页 |
·构建基于类标信息的概念空间 | 第36-38页 |
·直接派生 | 第37页 |
·拆分派生 | 第37页 |
·组合派生 | 第37-38页 |
·词语与文本的表示 | 第38-42页 |
·词语的表示 | 第39-41页 |
·文本的表示 | 第41-42页 |
·简明语义分析的算法流程 | 第42-44页 |
·实验与分析 | 第44-51页 |
·数据集 | 第44-46页 |
·实验设置 | 第46页 |
·实验结果与分析 | 第46-51页 |
·本章小结 | 第51-53页 |
4 简明语义分析的可扩展性与并行化 | 第53-78页 |
·简明语义分析的数据依赖关系 | 第53-54页 |
·简明语义分析的可扩展性 | 第54-68页 |
·词频、文档频、平均文档长度、期望文档频的数量关系 | 第55-57页 |
·可扩展性衡量指标 | 第57-58页 |
·词可扩展性 | 第58-61页 |
·文档可扩展性 | 第61-65页 |
·类别/概念可扩展性 | 第65-68页 |
·简明语义分析的并行化 | 第68-75页 |
·PRAM 模型 | 第69页 |
·并行化性能指标 | 第69-70页 |
·并行化简明语义分析算法 | 第70-75页 |
·本章小结 | 第75-78页 |
5 基于简明语义分析的词串表示模型 | 第78-98页 |
·文本表示过程中的信息损耗 | 第78-80页 |
·熵、信息量与噪声信道模型 | 第78-79页 |
·词袋模型的信息损耗 | 第79-80页 |
·词串模型 | 第80-83页 |
·完备的文本表示模型 | 第80-82页 |
·词串模型的简化 | 第82-83页 |
·基于CSA 的词串模型 | 第83-86页 |
·文本向量串的粒度 | 第83-84页 |
·文本向量串的长度 | 第84-85页 |
·固定长度表示与固定粒度表示 | 第85-86页 |
·有序向量串的相似度计算 | 第86-91页 |
·单个向量的相似度计算 | 第86-87页 |
·等长向量串的相似度计算 | 第87-90页 |
·不等长向量串的相似度计算 | 第90-91页 |
·词串模型在长文本分类中的应用 | 第91-95页 |
·长文本的判定与参数设定 | 第91-92页 |
·数据集 | 第92页 |
·分类器设计 | 第92页 |
·对比实验设计 | 第92页 |
·实验结果与分析 | 第92-95页 |
·本章小结 | 第95-98页 |
6 基于简明语义分析的手机新闻推荐系统 | 第98-110页 |
·新闻推荐系统简介 | 第98-99页 |
·基于协同过滤的推荐系统 | 第98页 |
·基于内容的推荐系统 | 第98-99页 |
·手机新闻推荐系统的挑战 | 第99-101页 |
·手机接入互联网的途径 | 第99-100页 |
·新闻推荐系统的实时性要求 | 第100页 |
·手机终端屏幕尺寸限制 | 第100-101页 |
·基于CSA 的手机新闻推荐系统 | 第101-105页 |
·用户兴趣形式化 | 第101-102页 |
·兴趣度计算模块 | 第102-103页 |
·新闻展示策略 | 第103页 |
·隐私保护策略 | 第103-105页 |
·基于CSA 的手机新闻系统原型展示 | 第105-108页 |
·本章小结 | 第108-110页 |
7 总结与展望 | 第110-112页 |
·主要结论 | 第110-111页 |
·后续工作展望 | 第111-112页 |
致谢 | 第112-114页 |
参考文献 | 第114-122页 |
附录 | 第122页 |
A 作者攻读博士学位期间发表的学术论文 | 第122页 |
B 作者攻读博士学位期间参与的科研项目 | 第122页 |