極鏈科技HPAIC人類蛋白質圖譜分類挑戰賽金牌經驗分享
模型
我們最終使用的基礎模型有Inceptionv3,Inceptionv4以及Xception三種,比賽前期我們測試了VGG,ResNet,ResNext,SeNet,但是效果不是很好,因此比賽末期沒有再進行進一步測試。
我們使用了512,650和800三種尺度來增加網絡對圖像的理解,另外每個尺度進行10折交叉驗證,保證驗證集的劃分對網絡整體的影響,以及用驗證集來評估模型預測的好壞和選擇模型及其對應的參數。不同模型交叉驗證時使用不同的隨機種子劃分驗證集和訓練集,以盡可能多的學到不同的樣本組合。
Inceptionv3和Inceptionv4的512的結果不好(0.55+ public leaderboard 閾值0.15),因此沒有做交叉驗證,只是用512尺度訓練了基礎模型,并用在650和800的微調中。
模型修改:
1.第一層卷積的輸入通道數由3修改為4,保持其他卷積參數不變,從而使網絡應對4通道輸入;
2.修改最后一的池化層為全局池化層,保證在多尺度時可以使用同一個網絡;
3.全局池化后增加一層128的全連接,然后接一層28的全連接。
訓練
訓練過程的參數如下:
loss: MultiLabelSoftMarginLoss
lr: 0.05(512,imagenet 預訓練),0.01(650和800,512預訓練);
lrscheduler: steplr(gamma=0.1,step=6)
optimizer: SGD (adam,rms not well)
epochs: 25, 600和800一般在12-20直接提前結束,取loss最低的模型
10 folds CV
sampling weights:[1.0, 5.97, 2.89, 5.75, 4.64, 4.27, 5.46, 3.2, 14.48, 14.84, 15.14, 6.92, 6.86, 8.12, 6.32, 19.24, 8.48, 11.93, 7.32, 5.48, 11.99, 2.39, 6.3, 3.0, 12.06, 1.0, 10.39, 16.5]
scale:512,600,800
獨立閾值
為每一個類別找到一個合適的閾值是一件很困難的事,但是多閾值是提升分數的關鍵,對我來說,大概可以提升0.005~0.008。 我們使用驗證集來找閾值,我們訓練單模型xception 512 ,驗證集占13%。調整每一類的閾值使得f1 score達到最優,不過我們發現稀有類別的閾值普遍很高,public lb會變差,因此我們只調整了驗證集1000張以上的類別,稀有類別控制閾值為0.15 通過這種方法找到的閾值在其他模型或者集成的時候同樣有效。
測試
比賽結束以后我們將比賽中訓練的模型重新提交查看private leaderboard成績,得到如下結果:

比賽過程中我們發現做了10 fold ensemble不一定比single fold好,因此我們在最終集成的時候部分模型只選擇了部分fold (根據loss選擇)。
檢索
我們使用檢索的方法(特征使用inceptionv4 800 的128維特征)查找test與hpa相似的圖片,使用余弦相似度進行度量,我們發現了許多相似的甚至相同的圖片,直接使用相似度最高的300張圖片的結果進行替換,分數在public lb上提升0.01~0.015,不過在private LB中并沒有效果,官方在比賽過程中也說明部分test圖像由于與HPA中部分圖像重合,不再進行分數計算。
集成
我們將inceptionv3 inceptionv4以及xception 800的10fold 模型的特征進行concat(先進行l2),得到3840維的新特征,并在此基礎上設計了2層的全連接網絡進行訓練, 并做10 fold CV,訓練過程中使用不容參數訓練過程如圖所示,我們取了loss最低的參數。結果融合后private lb:0.55150 public lb:0.62791。

雖然上面方法在public lb上分數較高,但是當與其他模型結果融合時,public LB的分數反而降了,因此我們降低了這個模型的權重。
最后的結果是通過加權融合的方式得到的,權重根據模型的public lb分數設置, inceptionv4 800和inceptionv3 800的權重最高,xception 650 最低,同時也用到了inceptionv4、xception其他尺度的部分fold。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













