基于LSA的文本分析
摘要 | 第1-4页 |
Abstract | 第4-8页 |
1. 导言 | 第8-11页 |
·研究目标和研究意义 | 第8-9页 |
·研究目标 | 第8页 |
·研究意义 | 第8-9页 |
·研究内容 | 第9-11页 |
2. 文本分析技术综述 | 第11-16页 |
·文本分析的基本过程 | 第11-12页 |
·文本分析的主要方法 | 第12-16页 |
·词法分析 | 第12-13页 |
·句法分析和语义分析 | 第13-16页 |
3. 潜在语义分析技术 | 第16-26页 |
·潜在语义分析简介 | 第16-17页 |
·潜在语义分析的思想 | 第17-18页 |
·潜在语义的实现过程 | 第18-23页 |
·生成矩阵 | 第18-19页 |
·奇异值分解 | 第19-20页 |
·降维 | 第20-21页 |
·关联度的计算 | 第21页 |
·定义权重函数 | 第21-23页 |
·潜在语义分析技术的应用 | 第23-24页 |
·信息检索/过滤 | 第23页 |
·相关反馈 | 第23-24页 |
·信息聚类/ 分类 | 第24页 |
·判断和预测 | 第24页 |
·LSA 实现存在一些关键性问题 | 第24-25页 |
·潜在语义分析技术在本研究中的应用 | 第25-26页 |
4. 基于潜在语义分析技术的文本分析系统的实现 | 第26-60页 |
·语料库的准备 | 第26-30页 |
·领域的选择 | 第26页 |
·网页的下载 | 第26-27页 |
·正文的抽取 | 第27-30页 |
·本体模块 | 第30-38页 |
·本体技术简介及其在本研究中的应用 | 第30-31页 |
·本体技术原理 | 第31-33页 |
·本体的构建 | 第33-37页 |
·本体替换模块的设计 | 第37-38页 |
·分词及标注模块 | 第38-42页 |
·哈工大自然语言平台简介 | 第38-39页 |
·利用哈工大自然语言平台进行分词 | 第39-42页 |
·分句模块 | 第42-43页 |
·统计全局频率模块 | 第43-46页 |
·潜在语义空间的形成模块 | 第46-56页 |
·局部权重的计算 | 第47-50页 |
·全局权重的计算以及权重矩阵的形成 | 第50-51页 |
·奇异值分解 | 第51-56页 |
·Matcom 的介绍 | 第51-52页 |
·在VC++中使用Matcom C++矩阵库 | 第52-56页 |
·相似度计算模块 | 第56-60页 |
·流程简介 | 第56页 |
·等级相关技术 | 第56-60页 |
5. 实验和测试结果 | 第60-65页 |
·开发及运行环境 | 第60-61页 |
·测试结果 | 第61-65页 |
6. 总结展望 | 第65-67页 |
·结论 | 第65-66页 |
·本文讨论的主要问题 | 第65页 |
·课题的创新处 | 第65-66页 |
·研究成果 | 第66页 |
·下一步工作展望 | 第66-67页 |
参考文献 | 第67-69页 |
致谢 | 第69页 |