Machine Learning Yearning

Posted by c cm on July 8, 2017

测试/验证集

1 应该根据未来数据的长相,和想要预测好的数据来选择的测试/验证集

2 测试/验证集应该来自同一分布

3 验证集的大小应该要至少能计算出不同算法在评价指标上我们需要的精确度;测试集的大小应该对算法给出足够的置信度,1w内用30%,1w以上可减少

4 优化指标要唯一

5 多个优化目标时,选择N-1个可接受目标,在满足这些目标的基础上,优化最重要的目标

6 用测试/验证集和优化目标来加速迭代

7 一周内想出不完善的测试/验证集和优化目标开始工作,在找到更好的之后迅速替代

错误分析

1 错误分析来得到某种改进方法的预期效果上限

2 看100个错误数据,对错误进行分类