摘要 | 第1-8页 |
Abstract | 第8-14页 |
第一章 引言 | 第14-20页 |
1.1 研究课题的提出 | 第14-16页 |
1.1.1 网络浏览与网络门户网站 | 第14页 |
1.1.2 信息爆炸与信息检索 | 第14-16页 |
1.2 国内外研究现状 | 第16-19页 |
1.2.1 文本内容标引界定 | 第16-17页 |
1.2.2 文本内容标引相关研究综述 | 第17-19页 |
1.3 本研究的目标和内容 | 第19页 |
1.4 本研究的意义 | 第19-20页 |
第二章 关键短语与词语表构建 | 第20-30页 |
2.1 短语的相关研究 | 第20-24页 |
2.1.1 短语本位语法体系关于短语的论述 | 第20-21页 |
2.1.2 计算语言学关于短语的研究 | 第21页 |
2.1.3 认知心理学关于短语的研究 | 第21-22页 |
2.1.4 言语习得和教育学关于短语的研究 | 第22-23页 |
2.1.5 信息处理应用领域对短语的研究 | 第23-24页 |
2.2 本研究对关键短语的界定 | 第24页 |
2.3 关键短语与其它相关成分的关系 | 第24-26页 |
2.3.1 关键短语与命名实体 | 第24页 |
2.3.2 关键短语与本体 | 第24-25页 |
2.3.3 关键短语与术语 | 第25页 |
2.3.4 关键短语与主题词、关键词 | 第25页 |
2.3.5 关键短语与短语 | 第25-26页 |
2.4 关键短语的获取 | 第26-28页 |
2.5 关键短语与词语表 | 第28-30页 |
2.5.1 基于关键短语的词语表构建 | 第28-29页 |
2.5.2 切分结果分析 | 第29-30页 |
第三章 基于统计的主题领域知识获取 | 第30-52页 |
3.1 超大规模层级分类语料库建立 | 第31-42页 |
3.1.1 网页内容解析 | 第31-33页 |
3.1.2 语料信息字段定义 | 第33-34页 |
3.1.3 网页分类体系建立 | 第34-39页 |
3.1.4 语料归类建库 | 第39-41页 |
3.1.5 语料库信息汇总 | 第41-42页 |
3.2 基于主题依存分析的领域词语聚类 | 第42-50页 |
3.2.1 主题依存分析 | 第42页 |
3.2.2 利用文本分类的特征提取方法进行词语聚类 | 第42-49页 |
3.2.3 词语的类别区别度 | 第49-50页 |
3.3 扩展的词语聚类 | 第50-52页 |
3.3.1 聚类算法简介 | 第50页 |
3.3.2 基于主题依存分析的聚类算法改进 | 第50-51页 |
3.3.3 聚类结果分析 | 第51-52页 |
第四章 文本分类实现 | 第52-74页 |
4.1 文本分类综述 | 第52-62页 |
4.1.1 本文对文本分类的界定 | 第52-53页 |
4.1.2 文本分类综述 | 第53-58页 |
4.1.3 主题标引综述 | 第58-61页 |
4.1.4 主要问题分析 | 第61-62页 |
4.2 分类算法实现与训练(测试)集 | 第62-67页 |
4.2.1 分类算法实现 | 第62-64页 |
4.2.2 训练(测试)集 | 第64-65页 |
4.2.3 测试方法 | 第65-67页 |
4.3 分类结果分析比较 | 第67-72页 |
4.3.1 分类算法比较 | 第67-68页 |
4.3.2 特征本身(词表)对分类影响的比较 | 第68-70页 |
4.3.3 小类校正对分类影响的比较 | 第70-71页 |
4.3.4 兼类阈值对分类影响的比较 | 第71-72页 |
4.4 结论 | 第72页 |
4.5 分类系统自适应 | 第72-74页 |
4.5.1 分类系统自适应原理 | 第72-73页 |
4.5.2 分类系统自适应示例 | 第73-74页 |
第五章 主题词标引实现 | 第74-79页 |
5.1 主题词标引综述 | 第74-76页 |
5.1.1 本文对主题词标引的限定 | 第74页 |
5.1.2 主题词标引综述 | 第74-76页 |
5.2 主题词标引实现 | 第76-77页 |
5.3 主题词标引测试及结果 | 第77-79页 |
第六章 系统设计与实现 | 第79-82页 |
6.1 系统简介 | 第79页 |
6.2 系统总体流程图 | 第79-80页 |
6.3 系统截图 | 第80-82页 |
第七章 结束语 | 第82-86页 |
7.1 全文总结 | 第82页 |
7.2 存在的问题和尚需改进的地方 | 第82-83页 |
7.2.1 关键短语的界定方面 | 第82页 |
7.2.2 词语切分对比测试方面 | 第82-83页 |
7.2.3 词语领域聚类的特征选择方面 | 第83页 |
7.2.4 文本分类系统的评测方面 | 第83页 |
7.2.5 主题词标引方面 | 第83页 |
7.3 进一步的工作 | 第83-86页 |
7.3.1 文本内容的语义标注 | 第83-84页 |
7.3.2 自动文摘模块补充 | 第84页 |
7.3.3 基于 XML的文本表示和智能信息检索 | 第84页 |
7.3.4 词典编撰辅助系统构建 | 第84页 |
7.3.5 对外汉语教学资源平台建设 | 第84-86页 |
参考文献 | 第86-90页 |
附录 | 第90-105页 |
附录1:切分对比示例 | 第90-92页 |
附录2:网页分类系统之类别汇总 | 第92-94页 |
附录3:大类词表一 | 第94-95页 |
附录4:大类词表二 | 第95-96页 |
附录5:“经济”类中“保险”关键词聚类词表前一百个词语 | 第96页 |
附录6:“经济”类中“银行卡”关键词聚类词表前一百个词语 | 第96-97页 |
附录7:“国内新闻”类“春运”关键词聚类词表的前一百个词语 | 第97页 |
附录8:“汽车”类中“轮胎”关键词聚类词表前一百词语 | 第97-98页 |
附录9:“科技”类“病毒”关键词聚类词表前一百词语 | 第98页 |
附录10:“科技”类“芯片”关键词聚类词表前一百词语 | 第98-99页 |
附录11:“房产”类关键词“木地板”聚类词表前一百词语 | 第99页 |
附录12:“国际新闻”类中“恐怖袭击”关键词聚类词表前一百词语 | 第99-100页 |
附录13:“教育”类中“性教育”关键词聚类词表前一百词语 | 第100页 |
附录14:“军事新闻”类中“直升机”关键词聚类词表前一百词语 | 第100-101页 |
附录15:“旅游”类中“红色之旅”关键词聚类词表前一百词语 | 第101页 |
附录16:“生活男女”类中“美发”关键词聚类词表前一百词语 | 第101-102页 |
附录17:“社会新闻”类中“自杀”关键词聚类词表前一百词语 | 第102页 |
附录18:“文艺”类中“遗址”关键词聚类词表前一百词语 | 第102-103页 |
附录19:“游戏”类中“敏捷篇(迷你游戏)”关键词聚类词表前一百词语. | 第103页 |
附录20:“娱乐”类中“摇滚”关键词聚类词表前一百词语 | 第103-104页 |
附录21:“体育”类中“北京奥运”关键词聚类词表前一百词语 | 第104-105页 |
致谢 | 第105-106页 |
科研成果 | 第106页 |