基于LSA的文本分析
| 摘要 | 第1-4页 |
| Abstract | 第4-8页 |
| 1. 导言 | 第8-11页 |
| ·研究目标和研究意义 | 第8-9页 |
| ·研究目标 | 第8页 |
| ·研究意义 | 第8-9页 |
| ·研究内容 | 第9-11页 |
| 2. 文本分析技术综述 | 第11-16页 |
| ·文本分析的基本过程 | 第11-12页 |
| ·文本分析的主要方法 | 第12-16页 |
| ·词法分析 | 第12-13页 |
| ·句法分析和语义分析 | 第13-16页 |
| 3. 潜在语义分析技术 | 第16-26页 |
| ·潜在语义分析简介 | 第16-17页 |
| ·潜在语义分析的思想 | 第17-18页 |
| ·潜在语义的实现过程 | 第18-23页 |
| ·生成矩阵 | 第18-19页 |
| ·奇异值分解 | 第19-20页 |
| ·降维 | 第20-21页 |
| ·关联度的计算 | 第21页 |
| ·定义权重函数 | 第21-23页 |
| ·潜在语义分析技术的应用 | 第23-24页 |
| ·信息检索/过滤 | 第23页 |
| ·相关反馈 | 第23-24页 |
| ·信息聚类/ 分类 | 第24页 |
| ·判断和预测 | 第24页 |
| ·LSA 实现存在一些关键性问题 | 第24-25页 |
| ·潜在语义分析技术在本研究中的应用 | 第25-26页 |
| 4. 基于潜在语义分析技术的文本分析系统的实现 | 第26-60页 |
| ·语料库的准备 | 第26-30页 |
| ·领域的选择 | 第26页 |
| ·网页的下载 | 第26-27页 |
| ·正文的抽取 | 第27-30页 |
| ·本体模块 | 第30-38页 |
| ·本体技术简介及其在本研究中的应用 | 第30-31页 |
| ·本体技术原理 | 第31-33页 |
| ·本体的构建 | 第33-37页 |
| ·本体替换模块的设计 | 第37-38页 |
| ·分词及标注模块 | 第38-42页 |
| ·哈工大自然语言平台简介 | 第38-39页 |
| ·利用哈工大自然语言平台进行分词 | 第39-42页 |
| ·分句模块 | 第42-43页 |
| ·统计全局频率模块 | 第43-46页 |
| ·潜在语义空间的形成模块 | 第46-56页 |
| ·局部权重的计算 | 第47-50页 |
| ·全局权重的计算以及权重矩阵的形成 | 第50-51页 |
| ·奇异值分解 | 第51-56页 |
| ·Matcom 的介绍 | 第51-52页 |
| ·在VC++中使用Matcom C++矩阵库 | 第52-56页 |
| ·相似度计算模块 | 第56-60页 |
| ·流程简介 | 第56页 |
| ·等级相关技术 | 第56-60页 |
| 5. 实验和测试结果 | 第60-65页 |
| ·开发及运行环境 | 第60-61页 |
| ·测试结果 | 第61-65页 |
| 6. 总结展望 | 第65-67页 |
| ·结论 | 第65-66页 |
| ·本文讨论的主要问题 | 第65页 |
| ·课题的创新处 | 第65-66页 |
| ·研究成果 | 第66页 |
| ·下一步工作展望 | 第66-67页 |
| 参考文献 | 第67-69页 |
| 致谢 | 第69页 |