Project-3简介

项目目的

学习并熟悉LDA模型,使用LDA模型进行中文文档分类。

数据集

使用project-1中的文档数据集。这里下载文档数据集:Chinese documents collection.rar

这个数据集中的文档分为体育(Sports)、政治(Politics)、医疗(Medical)、经济(Economy)、农业(Agriculture)、环境(Environment)、交通(Transportation)、航天(Space)、教育(Education)和艺术(Art)等10类,总共1990个文档,每个文档的类别可以从文档名看出来。

要求

编写程序(语言不限),实现上述中文文档的分类。实现过程与要求:
1. 把project-1中的文档数据集做作为输入,利用LDA提取隐含topics,在topics空间重新表示文档,在此基础上进行文档分类。
2. 除了分类方法不同,其它具体要求同project-1。
3. 所有工作应在12月31日前完成。