大规模语料库分词质量评价方法研究

1 绪论	第1-12页
·课题背景	第8-9页
·课题研究目标及采用的方法	第9页
·论文的主要工作及成果	第9-11页
·论文结构	第11-12页
2 文本聚类	第12-17页
·文本聚类的意义	第12-13页
·文本聚类算法	第13-17页
·层次聚类算法	第13-14页
·分割聚类算法	第14-15页
·基于密度的聚类算法	第15-16页
·其它聚类算法	第16-17页
3 文本的特征表示	第17-22页
·文本特征表示及文本相似性计算的一般方法	第17-20页
·布尔模型	第17-18页
·概率模型	第18-19页
·向量空间模型	第19-20页
·向量空间模型中特征项权重计算	第20-22页
4 语料库的统计抽样	第22-27页
·抽样调查的相关概念	第22-23页
·抽样调查方法	第23-25页
·随机抽样	第23-24页
·分层抽样	第24-25页
·语料库分词质量评价的分层抽样	第25-27页
5 大规模语料库分词质量评价样本的聚类	第27-37页
·样本聚类系统框图	第27-28页
·语料库分词质量评价样本的特征提取及权重计算	第28-31页
·语料库分词质量评价样本特征提取	第28-30页
·语料库分词质量评价样本各分量权重计算	第30-31页
·语料库分词质量评价样本的相似性计算	第31-32页
·聚类算法	第32-35页
·聚类结果的评价算法	第35-37页
6 实验数据分析	第37-41页
·实验数据	第37-38页
·结果分析	第38-41页
结论与展望	第41-42页
致谢	第42-43页
参考文献	第43-45页