码报:Kaggle获奖者自述比赛求生指南：我们如何“穿越(10)_本港台直播_J2开奖直播

早上8点一过，我们刷新出Private LB的排名是第六，当时就懵逼了。虽然我们早就知道会存在抖动，选择的Submission也是在验证集和Public LB上表现都比较好的，但抖动还是比我们预计的要大得多。

最后几天的提交基本在0.93430到0.93450之间，我们预估抖动可能会比0.0002大一点，因为Private LB只有两万样本，但抖动在我们的Submission中的是0.001左右，大概我们预估的5倍左右。

事实上，从BreakfastPirate的一个分析贴看，这次比赛Top 10%的队伍的排名抖动程度（即Public LB和Private LB的差异）在整个Kaggle的历史上也可以排上前十，非常夸张。

我们试着对这个结果进行了分析，下面是赛后对我们Submission进行分析画的散点图。

码报:Kaggle获奖者自述比赛求生指南：我们如何“穿越

说明如下：

横轴是Public LB Score，纵轴是Private LB Score。

橘色的点代表单模型提交，蓝色、红色、黄绿色的点代表多模型Ensemble的提交，红色的点是我们最后选中的两个Submission，Kaggle会根据每个参赛队伍选中的两个Submission中Private LB分数最高的，来计算最终排名。黄绿色的点是比赛中因为提交次数限制没有提交、赛后才提交的Submission。

蓝色斜线是对线性拟合曲线。

铜色横线以上是铜牌区，银色横线以上是银牌区，金色横线以上是金牌区，绿色横线以上是奖金池。

可以看到，我们最后一周提交的Ensemble模型都在金牌区以内，甚至有3个单模型也进入其中，分别是ResNet50、ResNet101和ResNet152。我们最后一段时间有很多好的单模型没有提交，它们中应该也有可以进入金牌区的。

我们赛中的提交有6个进入奖金池，其中最高一个的F2-Score为0.93322，比Private LB第一名bestfitting最后的Submission 0.93318还高一点，当然我们相信其他队伍也应该和我们一样，有一些更好的Submission但是没有被选中。赛后提交的4个Submission中也有2个进入奖金池。

上图可以看出Public LB到Private LB的抖动大概在0.001左右。

从Private LB第一的bestfitting的赛后方案总结看出，他对比赛的Public LB到Private LB可能的抖动（Shake up）使用模拟进行了估计，得出这个F2-Score的抖动大概在0.001-0.0025，而Public LB前面的队伍的差别只有0.0005-0.001，所以最后的排名出现较大抖动也十分正常。从最后的结果看来他的估计也是挺准的。

造成这种抖动的原因应该是来着数据集中一些难以明确分类的样本，也就是Data部分提到的即使是官方组织内部的专家也难以区分的样本，比如河流和道路有时候完全分不清楚。这类样本的标注基本是随机的，让同一个人重新标注都可能标得不同。

冠军选手bestfitting的这种模拟抖动分析十分值得我们学习，因为这一方面可以避免自己过分关注微小的提升，另一方面，如果已经知道随机抖动程度甚至都超过了前几名之间的细微差距，那我们最终选两个Submission时就不应该去理会Public LB最好的那个，而是先选一个稳妥方案的Submission，再从其他不错的Submission中随机选一个，把胜负交给伟大的随机性来决定谁才是天选之人。

5. 队伍成员介绍

我们队伍总共6个人，都是中山大学潘嵘老师CIS实验室的研究生（这也是我们队名叫SYSU CISLab的原因），刘思聪、黄正杰、郑华滨、张晋斌是研二的学硕，吴晓晖和蒋礼斌是研一的专硕，每个人的贡献如下：

刘思聪：主要负责模型设计、查找有用信息、队内任务分配协调。设计了单模型训练的基本流程，包括数据增强的类型和使用方式，发现Loss和F2-Score的相关性在Ensemble阶段与单模型阶段的不同，Ensemble阶段的Attention Stacking的设计实现，单模型的调优，多次随机搜索F2-Score阈值的方案设计。

黄正杰：主要负责K折交叉验证设计，实验记录的分析和管理，Bagging Ensemble Selection的实现，Attention Stacking方案一的实现，单模型的调优，尝试使用进化计算搜索F2-Score的阈值。

郑华滨：提出第二轮训练猛降50倍学习率的做法并验证其有效性。实现了F2-Score阈值搜索函数的GPU版本，大大加速了Ensemble阶段根据F2-Score做early stopping的策略。设计实现了Attention Stacking方案二的设计和实现。对比了测试集F2-Score阈值的平均方案与拼接方案的效果差异。

张晋斌：查找信息，探索其他可能的数据增强方法，尝试Ridge Regression的Stacking。

吴晓晖：单模型调优，编写Leaderboard监控程序，赛后数据的分析和探索，多次随机搜索F2-Score阈值的方案实现与探索。

(责任编辑：本港台直播)