Skip to main content
 首页 » 编程设计

python之您如何评估分类器对测试数据的性能

2024年10月25日12haluo1

我正在使用 scikit 制作一个监督分类器,目前我正在调整它以在标记数据上提供良好的准确性。但是我如何估计它在测试数据(未标记)上的表现如何?

另外,我如何知道我是否开始过度拟合分类器?

请您参考如下方法:

您无法对未标记数据的方法进行评分,因为您需要知道正确答案。为了评估一种方法,您应该将训练集拆分为(新)训练和测试(例如,通过 sklearn.cross_validation.train_test_split)。然后将模型拟合到训练中并在测试中对其进行评分。 如果您没有大量数据并且保留其中一些数据可能会对算法的性能产生负面影响,请使用 cross validation .

由于过度拟合无法泛化,因此低测试分数是一个很好的指标。

有关更多理论和一些其他方法,请查看 this article .