跳到主要內容

各位在解題競賽中有遇到資料集收集,整理及標註的需求嗎?

經由 Kevin 提問 ‧ 26 天前

其他

請教各位解題的研究人員和團隊,在資料集收集,整理及標註方面有遇到什麼困難和痛點嗎?

我是一個數據收集和標註平台的共同創辦人,Kevin。我們透過對接平台上的大眾用戶或內部標註團隊,為企業和 AI 研究人員提供具彈性的人力資源,解決資料收集、標註和去識別化等的需求,以協助企業和研究人員節省數據整備時間,專注開發 AI 應用和作市場調查。

同時,企業也可運用我們的資料標註及整理平台,加速讓企業內部員工處理需要行業專業知識判斷的資料整備。

現階段我們專注以下的數據收集和標籤:
1. 收集圖像、影片、語音,或於其中標示物件和轉譯文字
2. 大眾意見收集,例如:個人喜好、情感分析、簡短的市場調查問卷

希望各位可以一起交流在解題中遇到的數據整備的困難及痛點,我們的團隊也會提供更多支援和免費試用協助各出題單位和解題團隊,加速台灣各產業的 AI 發展,謝謝!

Kevin Wong 黃偉俊
CEO & Co-founder,Datax Limited 集智坊(https://datax.io)
Email: kevin.wong@datax.io
LINE ID: waichunwong

回答 2

經由 omnixri 回答 ‧ 23 天前

很高興台灣又多了一個提供標註工具的公司,個人提供一個小小建議,目前已有一些廠商提供線上(網頁或手機版)工具,但多半是給一個工作者標註使用,但缺乏工作認領分配及審核工具。舉例來說有一萬張影像,有十位同時線上工作,每張影像必須要有二到三人標註過(以確認標註精度),並要要一個審核人員確認後同步從待處理清單上移除,上線工作者會隨機(或特定分配法則)取得待標註影像同時知道自己已完成多少項目(和計價有關),而審查者(或實際提供資料客戶)可隨時知道所有影像工作進度及檢查標註品質,甚至可隨時提供(更改)獎勵機制,以增加標註品質及速度。當然最後輸出格式能讓客戶自行選擇不同格式(JSON, XML, CSV...)或通用規格會更好。

經由 Kevin 回答 ‧ 22 天前

很感激您抽空給我們的建議!我們提供的平台正是致力處理整個流水線作業,解決數據標註中大大小小的痛點。

 

由從我們的平台用戶,為客戶提供合適的人力資源作標註(或客戶已經有內部的標註團隊)

到按客戶的分配法則自動處理工作分配到合資格的用戶(例如包括每張影像派給多少人處理,一個人最多可處理多少張等等)

再在我們的客戶端或按需要於其他標註工具上工作,而他們隨時也可查看自己完成了或待審核的工作數量

以至為客戶提供審核和數據總覽的平台,可實時監察工作的進度及檢查標註品質,到自動派發獎勵給完成工作的工作者

最後讓客戶以 CSV 格式跟對應的標註資源一起下載

 

您提到讓客戶自行選擇不同格式(JSON, XML, CSV...)或通用規格來導出數據,我們也認為十分重要,已經放在研發優先序列中!

另外也想請教,從您的經驗來看哪個行業比較多類似的需求?有沒有其他廠商的名字以供參考學習?萬分感謝!

經由 omnixri 評論 ‧ 22 天前

本次AIGO有將近百個廠商出題,有些甚至出題就是要標註系統,或許這些都是你的濳在客戶,可直接從「解題競賽區」進一步了解。過往的標註多半是低階工作,但目前像醫療影像或其它須專業領域才能標註的好的內容,通常需要更專業的標註系統,或許可以嚐試(挑戰)看看。

需登入才能回答問題