亚洲网址在线,青娱乐精品视频网,午夜国产精品500,熟女区

免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

深蘭科技摘得“圖表信息提取競賽”總成績的冠軍

2021-01-20 08:52

在日前結束的第25屆國際模式識別會議（ICPR2020）上，深蘭科技DeepBlueAI團隊同臺競技聯想、華南理工、合合等隊伍，摘得“圖表信息提取競賽”總成績的冠軍。

該競賽由6個賽道7個子任務組成，其中賽道6有兩個子任務，每個子任務又分Adobe Synth、UB PMC兩個數據集。7個子任務按照數據集單獨計分，最終按照總分進行排名。最終，DeepBlueAI團隊拿下4個賽道冠軍，以總分35分拿到總成績第一名。

ICPR2020圖表信息提取

競賽冠軍方案

該比賽各任務涵蓋圖表分類、案例分析、圖元素提取等，數據類別存在著分布極為不均衡的問題。

7個賽道分別為：賽道一，圖表分類；賽道二，檢測并識別圖表中的文字區域；賽道三，識別圖表圖像中文本功能／角色；賽道四，對坐標軸上刻度點進行檢測并與刻度標簽文本框關聯；賽道五，關聯圖例標簽文本與圖例樣式元素；賽道六，第一個子任務對圖表元素進行檢測與分類，第二個子任務提取用于生成圖表圖像的原始數據。

下面對比較有競爭力的三、四、五、六賽道的解決方案進行技術分享。

賽道三

賽道三以文本位置和文本內容為輸入，識別圖表圖像中每個文本的角色，6個類別如圖所示。我們的方法包括兩個步驟：特征提取和分類器分類。使用文本屬性來定義特征向量，使用的分類器是Random Forest ［1］和LightGBM ［2］。

特征由文本框屬性和文本內容組成，這些特征可分為三組。第一組包含框的長寬比、文本是否為數字、文本是否為多行、文本角度、文本長度和圖表類型。第二組包括文本框的三種相對位置信息，也就是相對于全局邊框、原點和圖例的位置。第三組包含水平／垂直對齊文本框的數量和對齊文本框的水平／垂直范圍，判斷框是否對齊時，分別使用文本框的中心點、左上角和右下角。

使用隨機森林和LightGBM對文本角色進行分類。隨機森林的一個優點是在缺少特征的情況下仍然具有良好的性能，LightGBM具有訓練效率高、精度高等優點。在訓練模型時，每個類別的損失權重與輸入數據的頻率成反比。