跳到主要內容

如果提供影像辨識的訓練資料不足,AI電腦視覺技術是不是就派不上用場了?

經由 SeanKai Pa 提問 ‧ 18 天前

電腦視覺

目前深度學習很火,從醫療、零售、倉儲、工業到監控等,好像各種影像辨識都能用到,但往往在一個地方卡關,那就是沒有足夠大量且有代表性的資料提供"訓練",有沒有可能用少量資料來達成好的辨識效果呢?

經由 laisan86 評論 ‧ 18 天前

目前是有標榜一些演算或處理過程可以降低訓練樣本的需求量! 但這其實會有些技巧, 好比POS機要辨識特定商品前, 能根據商品的顏色、外型, 排除其他不相干的, 這樣就可以達到一樣所要的辨識效果, 可是只需要較少量的訓練樣本了

回答 9

經由 allen chen 回答 ‧ 17 天前

解決訓練資料不足的方法還有一招是遷移學習(Transfer Learning),

說穿了就是老手將經驗值轉化成深度學習中神經網路所需要的權重資訊,

也就能把已訓練好的模型遷移到其他的神經網絡中

就不需要從零開始訓練一個神經網絡了 。

不過,遷移學習並非萬靈丹,只有在「適當」的情況下才有可能實現就是了。

經由 omnixri 回答 ‧ 17 天前

在傳統電腦視覺中,多半採領域專家定多項規則來提取特定特徵(如邊界、色彩、形狀、面積等),所以不需太多影像樣本就能達到不錯的檢出良率,面對不曾出現過的影像,只要符合規則就可適當的分類。

在深度學習領域中,資料集的建立一直是個大麻煩,因為要有極大的數量及多樣性,在影像分類領域中,常見解決方案是用資料擴增法來解決一部份問題。假設只有一百張已標註影像,透過將影像適當隨機縮放、位移、旋轉、扭曲、調整亮度、對比、色彩、模糊等手法就可輕易增加十倍以上,可解決數量問題,但多樣性則不易滿足。

若使用對抗生成網路(GAN)去生成看起來很相似的樣本來滿足多樣性問題,還是會遇到沒有足夠多的樣本根本無法正確訓練出GAN所需的權重,導致生成出一堆很奇怪的樣本。就像雞生蛋、蛋生雞問題,沒有正確的訓練GAN,就沒有看起來正確(有效)的樣本。另外為滿足足夠的樣本數,GAN訓練過程(時間)太過冗長又是另一項問題。

至於遷移學習則是目前較多人採用的解決方案,對於自然界影像較容易達成,主要是因為多半採用ImageNet, COCO之類的巨量數據產生的,所以較易達成只有幾張訓練樣本就能訓練出不錯的結果。但是如果用在工廠或特定領域,則上述這些資料集較少這些影像特徵,訓練出來結果可能就不盡人意,還是得乖乖收集夠多的影像重新訓練。

經由 hcygeorge 評論 ‧ 2 天前

我認同 omnixri 的回答,在樣本數不足夠的情況下,使用GAN學習到的可能是樣本的分布,而不是真正(母體)的分布。換句話說,在小樣本下,GAN生成的資料是否能代表整個母體,抑或GAN只是重現了樣本的特徵,這是需要嚴肅考慮的問題。

經由 omnixri 回答 ‧ 17 天前

影像分類、物件偵測勉強還可用資料擴增或對抗生成網路或遷移學習方法解決,但到了語義分割(像素級分類)或實例分割時,上述方法就不管用了,因為難以同步產生標註資訊,就無法訓練,要改以其它手段來完成。

以自駕車領域來說,很難一開始就叫一部車到街上轉一圈,拍了一堆影片後再回頭叫人逐一標註那些是車、道路、行人、路標等等,因為一秒有三十張影像,沒人可以一張一張標註,於是就有人以3D建模貼圖方式建立一個虛擬城市,有人有車還會動,再讓虛擬小車在街上跑,此時不僅取得足夠數量影像更能取得正確影像語義分割標註資訊。更可加入白天、晚上、風吹雨打等特殊場景,如此就有更多樣性樣本,待訓練到一定程度,再讓車子開到實際場域,再反過來收集真實世界影像比對推論結果,並修正成為新的訓練集資訊,那反複多次後就能得到理想數據集供其它模型使用。

 

經由 omnixri 回答 ‧ 17 天前

在POS機視覺自動結帳系統中,較麻煩的地方是可能有數千種商品要上架,須取像進行訓練,若是盒子或罐子(圓筒)類的商品可能還好辦,掃描六面大致上就可以,但遇到像洋芋片或不規則形狀的商品就較麻煩了,因為擺放方式難以確認,有些視角還有遮蔽或陰影問題,此時就須從多視角取像建立樣本,更誇張一點有些還要動用機器手臂裝上攝影機自動拍攝多個固定視角,或者反過來機器手臂抓著商品翻轉各種角度拍照,如此才能建立足夠的資料集進行訓練。

另外還有一個更麻煩的地方,每加入一樣新商品整個資料集就要重新訓練,對於商家太不方便,較可能作法是要一口氣收集數十種新商品,一次建立資料再進行訓練,才不會浪費太多時間。目前台灣廠商創意引晴(VISCOVERY)有推出類似產品,可參考一下 https://www.viscovery.com/solution.php?id=1

今年Computex 新漢智能(Nexcobot)亦有推出類似商品

經由 jiajheng.yeh 回答 ‧ 17 天前

其實若是想訓練人臉辨識、道路辨識、物體辨識等應用,在ImageNet這個世界最大的開源影像資料庫中,已提供數千萬張經人工標註的影像和2萬2千個類別,可善加利用這些資料來打造自己需要的影像辨識模型。

經由 omnixri 評論 ‧ 16 天前

ImageNet, COCO還不夠嗎? 這裡有個網站(https://deeplearning4j.org/cn/opendata)收錄了上百個免費資料集,包括自然圖像、地理空間、人工數據、臉部圖像、視頻、文本、問答、情感、推薦和評價、網絡與圖像、語音、符號化音樂、衛生與生物、政府與統計還有其它。

經由 yuhsuan 回答 ‧ 16 天前

在數據分析的世界,有句名言是"garbage in garbage out"!
十多年前曾火熱過的資料探勘(Data Mining)就因探勘不出什麼有價值的資料而歸於平淡~
現在的大數據、Deep Learning同樣遭遇類似的狀況!!!
有用又大量的資料難求啊!

經由 omnixri 評論 ‧ 16 天前

確實如此,錯誤的資料集,或標註品質不佳的資料集都會造成訓練正確率下降或很難收歛。光靠開源免費資料集面對落地(實務)問題有時還是不夠,非得乖乖自己收集、清洗、標註才能有較好訓練結果。所以不是有巨量資料就好,而是要有極佳標註品質的巨量資料才是王道。

經由 j;6u045j6 評論 ‧ 16 天前

同意,不論是在工廠或醫院,哪一家不是對自家的資料保護的密不透風,想要他們拿出來做訓練學習,門都沒有!不過AIGO的解題競賽倒是個機會,看到不少單位還是想找AI專家合作,是個不錯的管道(據了解去年不少AI新創因此打入產業做實證應用)。

經由 omnixri 回答 ‧ 12 天前

想要更多的視覺數據集嗎?哥倫比亞大學博士馮捷在 2017 年 8 月創建了一個專用於搜索計算機視覺數據集和代碼/模型的搜索引擎 VisualData。目前共有281種包括圖像分類、目標檢測、圖像搜索、3D 重建等,有興趣的朋友可以參考下列網址https://www.visualdata.io/

更多說明可參考 "http://bangqu.com/531535.html"

 

經由 chuckmails 回答 ‧ 11 天前

在資料不夠多、運算資源、時間有限的狀況下,轉移學習(Transfer learning)是很有效的方式。它能透過已經訓練好的模型,讓資料、運算的需求都大幅降低。概念上就像是站在巨人的肩膀一樣,使用訓練好的模型改裝,把pre-trained model中的最後一層改掉嫁入新的一層,用有限的資料訓練最後一層的參數。此外,資料還可以利用資料擴增(Datac augumentation)的方法倍增訓練資料,這個概念是透過影像處理的方法把照片色調、角度、對比改變,讓資料的多樣性增加,提高訓練準確度。

經由 warehouse 回答 ‧ 17 天前

小數據若想運用AI來發展應用,還是有解的,例如採用GAN。GAN中文譯為生成對抗網路,相較於既有的監督式深度學習架構,GAN採用非監督式深度學習架構,它由兩套神經網路組成,一套是負責生成影像的產生器(Generator),一套是負責評估生成影像真偽的鑑別器(Discriminator),這兩套神經網路互相競爭,也互相學習。一段時間後,鑑別器評斷的標準越來越高,而產生器所生成的影像也就越來越逼真,兩者同時進步。

有篇文章對GAN的形容很妙,把Generator形容成工匠,Discriminator形容成偵深:我們現在手上有真的data,工匠要做的事就是偽造出假的data,而偵探則是要分辨現在給他的data是真的還是假的,並且會給出一個回饋。工匠根據這個回饋來「訓練」他現在的工藝,也就是調整model的parameter;一旦工匠的工藝成熟到偵探分辨不出來誰真誰假,就可以說我們訓練出了一個能夠模擬真正data分布的model。

需登入才能回答問題