技術文章
2021-09-28 AIGO計劃辦公室 3002
資料品質為機器學習的重要關鍵
人工智慧逐漸在各應用領域扮演重要角色,奠定人工智慧的重要基石之一為用來訓練機器學習模型所使用的資料,世界知名的資料科學博士Tom Redman曾說過「資料品質差,所訓練的機器學習工具就沒有成效」(If Your Data Is Bad, Your Machine Learning Tools Are Useless)。如果沒有良好的資料提供模型進行訓練,即便是好的模型結果也只是垃圾進垃圾出。因此資料品質成為機器學習的重要關鍵,輸出成果很大程度的取決於輸入資料的品質。
根據市場分析公司Cognilytica調查顯示,建立成功的機器學習模型包含「建立準確的算法」、「資料準備」與「模型訓練」等三個方面,過程中資料科學家花費了80%的時間在做資料準備的部份,包含資料的識別、提取、標記、清理、轉換和擴充等工作,其中資料清理(Data Cleaning)佔了25%的時間。資料清理系統基於規則或基於邏輯等制定問題,在建立和準備週期的所耗費的人員與時間成本很高,但鑑於擁有乾淨的資料對機器學習至關重要,若資料在一開始即有小錯誤便可能持續堆疊、傳遞造成大錯誤,因此資料清理能夠確認資料的正確性,並刪除不需要或修正錯誤的內容以達到良好的資料品質。
Inductiv AI自動化資料清理技術受Apple青睞
加拿大新創公司Inductiv於 2019年成立,由三位大學教授共同創辦,創立宗旨為讓機器學習擁有乾淨的資料。創辦人兼CEO Ihab Ilyas現任滑鐵盧大學資訊工程系教授,教導機器學習至今16年,以資料科學、資料清理、資料品質及管理資料領域聞名,過去曾擔任企業資料統合公司Tamr的共同創辦人,專注於大規模資料整合和清理,已於2020年7月IPO上市。另外兩位共同創辦人分別為威斯康辛大學機器學習助理教授Theodoros Rekatsinas,專注於基於資料預備系統與資料清理等研究;以及史丹佛大學AI實驗室副教授Christopher Ré,研究專長為機器學習與資料科學,過去曾任於2017年被Apple收購的資料公司Lattice.io共同創辦人,專注於資料探勘。三位大學教授致力於機器學習與資料科學等項目研究,共同開發以AI自動化的辨識及修正資料錯誤與資料清理的技術「HoloClean」,用以提升機器學習在訓練模型時所著重的資料品質。Inductiv優異的資料清理技術被科技大廠Apple所看重於2020年5月收購Inductiv,並延攬其工程團隊加入Apple位於Cupertino園區。Apple收購Inductiv其中一項主要任務就是幫助Siri語音助理提升其認知能力,透過其大規模自動化資料校正以增強資料品質。
HoloClean以深度學習生成機率模型實現資料修復
Inductiv核心產品為資料清理與修復「HoloClean」,自動辨識結構化資料中的錯誤項目並且加以修復為正確的資料。該技術為是創辦人Ihab Ilyas、Christopher Ré以及其他研究夥伴在史丹佛大學與滑鐵盧大學合作發表的一篇論文「HoloClean:利用概率推理來進行資料修復」(Holistic:Data Repairs with Probabilistic Inference利用概率推理來進行資料修復),論文顯示他們開發的技術已經超越目前最先進的資料清理技術,並擁有更高的準確度。
鑑於現今AI與深度學習在處理非結構化資料方面表現出眾,但對於結構化資料仍使用較舊的資料科學方式進行清理與修復。過去在自動清理結構化資料的方式可概分為兩個步驟,其一為錯誤檢測(Error Detection),用以發覺資料中的不一致性,如誤植或遺漏的資料;另一為資料修復(Data Repairing),此項目涉及更新正確的資料以及刪除任何檢測到的錯誤資料。Inductiv的研究論文表示,資料科學為了自動化地完成這兩項錯誤檢測與資料修復任務,大部分都使用以下三種技術:(一)、完整性約束(Integrity Constraints):假定大部分輸入數據要乾淨並使用最小限度的操作原則進行維修修復;(二)外部資料(External information):將原始資料庫連結到外部詞典、知識庫或專家註解中,以匹配依賴度來檢測與修復原始資料;(三)定量統計(Quantitative Statistics)修復:基於統計分析的資料修復與清理方法。Inductiv對此三種技術進行了驗證,結果表示如果用過去的方法來做資料清理,會將每個因子個別獨立考量,在清理後可能會出現其他新的錯誤。
資料來源:MIC,2021年9月 圖1 資料清理與修復技術驗證
Inductiv的Holoclean技術使用AI深度學習生成機率模型,整合完整約束性、外部資料以及定量統計三項技術,以統計學習和機率推理來實現資料修復,以解決單獨考慮每個因子的缺陷,打造修復結構化資料的資料清理與修復系統。Holoclean的工作流程有三個步驟:(一)錯誤檢測:檢測結構化資料中具有潛在不正確數值的欄位;(二)編譯(Compilation):給定初始單元格資料和修復約束;(三)資料修復:HoloClean依據其生成機率模型的推理框架來進行資料修復。HoloClean的資料清理與修復能夠做出更適當的資料修正決策,經實驗證實其數據修復平均精確度達90%。
資料來源:MIC,2021年9月 圖2 Holoclean Framework
Apple借助Inductiv技術提升Siri模型的資料品質
Apple近年來積極佈署人工智慧領域並且藉由併購AI新創快速地獲取技術與人才,在2020年度成為近六年收購最多AI新創的科技大廠。2019年Loup Ventures根據三大科技公司的語音助理Google Assistant、Amazon Alexa以及Apple Siri進行了名為Annual Digital Assistant IQ Test語音助理智商測試,分別詢問了800個問題,問題包含當地資訊(Local)、商業(Commerce)、導航(Navigation)、資訊(Information)以及命令(Command)五大類,用以瞭解語音助理對於這五類項目中的理解問題與回應能力。在Assistant IQ Test中Siri於「命令」題目中表現最為優秀,而在「商業」及「資料」題目中排名最後,相對擁有自家搜尋引擎與電商平台的Google和Amazon,Siri需仰賴外部搜尋引擎進行訓練。2020年Apple以未公開金額併購Inductiv並且延攬其機器學習專家加入Apple AI研發團隊,雖然Apple對於併購Inductiv表示它們不會公開併購的目的與計畫,但鑒於Inductiv的機器學習工程師加入Siri部門,推測Apple將藉由Inductiv的AI資料清理Holoclean技術來幫助語音助理Siri的語音辨識模型做前期的資料清理,用以提升Siri的認知能力進而提升其資料搜尋品質。
財團法人資訊工業策進會 產業情報研究所(MIC) 張皓甯 產業分析師