Project-1简介

项目目的

学习并熟悉使用朴素贝叶斯进行中文文档分类。

数据集

这里下载文档数据集:Chinese documents collection.rar

这个数据集中的文档分为体育(Sports)、政治(Politics)、医疗(Medical)、经济(Economy)、农业(Agriculture)、环境(Environment)、交通(Transportation)、航天(Space)、教育(Education)和艺术(Art)等10类,总共1990个文档,每个文档的类别可以从文档名看出来。

要求

编写程序(语言不限),实现上述中文文档的分类。实现过程与要求:
1. 文档预处理与表示:可以采用N-grams表示;建议先切词(Chinese word segmentation),用切出的词表示文档。可以使用开源的切词程序或者软件。
2. 属性选择:建议使用互信息(Mutual information)进行属性选择。
3. 基于朴素贝叶斯方法训练文档分类器.
4. 测试训练的分类器:建议采用k-fold交叉验证,k值自定。建议考虑上述过程中不同的方法、设置和参数进行验证,譬如说:不同的文档表示方法、不同的属性选择方法、不同的平滑方法等。
5. 程序必须要可演示,要有基本的数据输入、参数设置、训练、测试和结果展示模块。
6. 撰写项目总结报告。报告要体现上述过程使用的方法、技术,包括对朴素贝叶斯方法的介绍,最后要有总结和自己对朴素贝叶斯文档分类方法的认识和体会。
7. 所有工作应在10月18日前完成。