主辦單位在賽後技術交流會上說這比賽的 training data 資料量 (2k) 小於 test data 資料量 (10k) 是為增加問題難度而設計的, 這應該沒什麼問題…

1 min readApr 18, 2019

主辦單位在賽後技術交流會上說這比賽的 training data 資料量 (2k) 小於 test data 資料量 (10k) 是為增加問題難度而設計的, 這應該沒什麼問題, 不過為避免資料分訓練集驗證集及訓練模型的隨機性, 應該是要做 cross-validation 或 voting, right? 另外, 因為這是 imbalanced dataset, 所以我認為應該用 multi-class F1 score 作評分標準, 而不是 accuracy.

Written by franky

No responses yet