勇者无惧,免费看美女奶波波的视频软件,亚洲精品国产摄像头,国产丝袜中文字幕在线

極鏈科技HPAIC人類蛋白質圖譜分類挑戰賽金牌經驗分享

2019-01-18 11:06

模型

我們最終使用的基礎模型有Inceptionv3，Inceptionv4以及Xception三種，比賽前期我們測試了VGG，ResNet，ResNext，SeNet，但是效果不是很好，因此比賽末期沒有再進行進一步測試。

我們使用了512，650和800三種尺度來增加網絡對圖像的理解，另外每個尺度進行10折交叉驗證，保證驗證集的劃分對網絡整體的影響，以及用驗證集來評估模型預測的好壞和選擇模型及其對應的參數。不同模型交叉驗證時使用不同的隨機種子劃分驗證集和訓練集，以盡可能多的學到不同的樣本組合。

Inceptionv3和Inceptionv4的512的結果不好（0．55＋ public leaderboard 閾值0．15），因此沒有做交叉驗證，只是用512尺度訓練了基礎模型，并用在650和800的微調中。

模型修改：

1．第一層卷積的輸入通道數由3修改為4，保持其他卷積參數不變，從而使網絡應對4通道輸入；

2．修改最后一的池化層為全局池化層，保證在多尺度時可以使用同一個網絡；

3．全局池化后增加一層128的全連接，然后接一層28的全連接。

訓練

訓練過程的參數如下：

loss： MultiLabelSoftMarginLoss

lr： 0．05（512，imagenet 預訓練），0．01（650和800，512預訓練）；

lrscheduler： steplr（gamma＝0．1，step＝6）

optimizer： SGD （adam，rms not well）

epochs： 25， 600和800一般在12－20直接提前結束，取loss最低的模型

10 folds CV

sampling weights：［1．0， 5．97， 2．89， 5．75， 4．64， 4．27， 5．46， 3．2， 14．48， 14．84， 15．14， 6．92， 6．86， 8．12， 6．32， 19．24， 8．48， 11．93， 7．32， 5．48， 11．99， 2．39， 6．3， 3．0， 12．06， 1．0， 10．39， 16．5］

scale：512，600，800

獨立閾值

為每一個類別找到一個合適的閾值是一件很困難的事，但是多閾值是提升分數的關鍵，對我來說，大概可以提升0．005～0．008。我們使用驗證集來找閾值，我們訓練單模型xception 512 ，驗證集占13％。調整每一類的閾值使得f1 score達到最優，不過我們發現稀有類別的閾值普遍很高，public lb會變差，因此我們只調整了驗證集1000張以上的類別，稀有類別控制閾值為0．15 通過這種方法找到的閾值在其他模型或者集成的時候同樣有效。

測試

比賽結束以后我們將比賽中訓練的模型重新提交查看private leaderboard成績，得到如下結果：

比賽過程中我們發現做了10 fold ensemble不一定比single fold好，因此我們在最終集成的時候部分模型只選擇了部分fold （根據loss選擇）。

檢索

我們使用檢索的方法（特征使用inceptionv4 800 的128維特征）查找test與hpa相似的圖片，使用余弦相似度進行度量，我們發現了許多相似的甚至相同的圖片，直接使用相似度最高的300張圖片的結果進行替換，分數在public lb上提升0．01～0．015，不過在private LB中并沒有效果，官方在比賽過程中也說明部分test圖像由于與HPA中部分圖像重合，不再進行分數計算。

集成

我們將inceptionv3 inceptionv4以及xception 800的10fold 模型的特征進行concat（先進行l2），得到3840維的新特征，并在此基礎上設計了2層的全連接網絡進行訓練，并做10 fold CV，訓練過程中使用不容參數訓練過程如圖所示，我們取了loss最低的參數。結果融合后private lb：0．55150 public lb：0．62791。