| 中文摘要 | 第1-5页 |
| 英文摘要 | 第5-11页 |
| 1 绪论 | 第11-21页 |
| ·研究背景和意义 | 第11-14页 |
| ·研究背景 | 第11-12页 |
| ·选题意义 | 第12-14页 |
| ·国内外研究现状 | 第14-16页 |
| ·文本分类研究现状 | 第15页 |
| ·文本分类难点 | 第15-16页 |
| ·主要研究内容和目的 | 第16-19页 |
| ·本文研究内容 | 第17-18页 |
| ·研究目的和创新点 | 第18-19页 |
| ·本文系统框架与组织结构 | 第19-21页 |
| 2 文本分类相关技术综述 | 第21-33页 |
| ·引言 | 第21页 |
| ·文本分类简介 | 第21-22页 |
| ·文本预处理与中文分词技术 | 第22-24页 |
| ·文本清理技术 | 第22-23页 |
| ·停用词去除 | 第23页 |
| ·中文分词技术 | 第23-24页 |
| ·文本表示技术 | 第24-26页 |
| ·向量空间模型 | 第24-25页 |
| ·词袋模型 | 第25页 |
| ·语义分析技术 | 第25-26页 |
| ·词语权值计算方法 | 第26-28页 |
| ·文档级的词语权值计算方法 | 第26页 |
| ·类别级的词语权值计算方法 | 第26-28页 |
| ·语料库级的词语权值计算方法 | 第28页 |
| ·分类算法 | 第28-30页 |
| ·k 近邻算法 | 第28-29页 |
| ·支持向量机算法 | 第29-30页 |
| ·语料库 | 第30-31页 |
| ·分类性能评估 | 第31-32页 |
| ·本章小结 | 第32-33页 |
| 3 简明语义分析 | 第33-53页 |
| ·语义分析技术在文本分类中的应用 | 第33-35页 |
| ·隐含语义分析 | 第34-35页 |
| ·明确语义分析 | 第35页 |
| ·简明语义分析的提出 | 第35-36页 |
| ·构建基于类标信息的概念空间 | 第36-38页 |
| ·直接派生 | 第37页 |
| ·拆分派生 | 第37页 |
| ·组合派生 | 第37-38页 |
| ·词语与文本的表示 | 第38-42页 |
| ·词语的表示 | 第39-41页 |
| ·文本的表示 | 第41-42页 |
| ·简明语义分析的算法流程 | 第42-44页 |
| ·实验与分析 | 第44-51页 |
| ·数据集 | 第44-46页 |
| ·实验设置 | 第46页 |
| ·实验结果与分析 | 第46-51页 |
| ·本章小结 | 第51-53页 |
| 4 简明语义分析的可扩展性与并行化 | 第53-78页 |
| ·简明语义分析的数据依赖关系 | 第53-54页 |
| ·简明语义分析的可扩展性 | 第54-68页 |
| ·词频、文档频、平均文档长度、期望文档频的数量关系 | 第55-57页 |
| ·可扩展性衡量指标 | 第57-58页 |
| ·词可扩展性 | 第58-61页 |
| ·文档可扩展性 | 第61-65页 |
| ·类别/概念可扩展性 | 第65-68页 |
| ·简明语义分析的并行化 | 第68-75页 |
| ·PRAM 模型 | 第69页 |
| ·并行化性能指标 | 第69-70页 |
| ·并行化简明语义分析算法 | 第70-75页 |
| ·本章小结 | 第75-78页 |
| 5 基于简明语义分析的词串表示模型 | 第78-98页 |
| ·文本表示过程中的信息损耗 | 第78-80页 |
| ·熵、信息量与噪声信道模型 | 第78-79页 |
| ·词袋模型的信息损耗 | 第79-80页 |
| ·词串模型 | 第80-83页 |
| ·完备的文本表示模型 | 第80-82页 |
| ·词串模型的简化 | 第82-83页 |
| ·基于CSA 的词串模型 | 第83-86页 |
| ·文本向量串的粒度 | 第83-84页 |
| ·文本向量串的长度 | 第84-85页 |
| ·固定长度表示与固定粒度表示 | 第85-86页 |
| ·有序向量串的相似度计算 | 第86-91页 |
| ·单个向量的相似度计算 | 第86-87页 |
| ·等长向量串的相似度计算 | 第87-90页 |
| ·不等长向量串的相似度计算 | 第90-91页 |
| ·词串模型在长文本分类中的应用 | 第91-95页 |
| ·长文本的判定与参数设定 | 第91-92页 |
| ·数据集 | 第92页 |
| ·分类器设计 | 第92页 |
| ·对比实验设计 | 第92页 |
| ·实验结果与分析 | 第92-95页 |
| ·本章小结 | 第95-98页 |
| 6 基于简明语义分析的手机新闻推荐系统 | 第98-110页 |
| ·新闻推荐系统简介 | 第98-99页 |
| ·基于协同过滤的推荐系统 | 第98页 |
| ·基于内容的推荐系统 | 第98-99页 |
| ·手机新闻推荐系统的挑战 | 第99-101页 |
| ·手机接入互联网的途径 | 第99-100页 |
| ·新闻推荐系统的实时性要求 | 第100页 |
| ·手机终端屏幕尺寸限制 | 第100-101页 |
| ·基于CSA 的手机新闻推荐系统 | 第101-105页 |
| ·用户兴趣形式化 | 第101-102页 |
| ·兴趣度计算模块 | 第102-103页 |
| ·新闻展示策略 | 第103页 |
| ·隐私保护策略 | 第103-105页 |
| ·基于CSA 的手机新闻系统原型展示 | 第105-108页 |
| ·本章小结 | 第108-110页 |
| 7 总结与展望 | 第110-112页 |
| ·主要结论 | 第110-111页 |
| ·后续工作展望 | 第111-112页 |
| 致谢 | 第112-114页 |
| 参考文献 | 第114-122页 |
| 附录 | 第122页 |
| A 作者攻读博士学位期间发表的学术论文 | 第122页 |
| B 作者攻读博士学位期间参与的科研项目 | 第122页 |