技術文章
2021-07-02 AIGO計劃辦公室 4027
深度學習讓機器閱讀更擅長理解文章
近年來深度學習技術的迅速發展,機器閱讀理解(Machine Reading Comprehension,
MRC)有了重大的進展,基於深度學習的機器閱讀理解模型,讓機器更擅長於理解文章的上下文語意,並顯著優於傳統機器模型。機器閱讀理解為自然語言處理的一個重要領域,透過機器閱讀文本(Text)進而理解並回應相關的問題,目標是利用人工智慧技術教導機器像人類一樣具有理解文章的能力。
儘管人工智慧實現了機器閱讀理解,但現今基於深度學習的機器閱讀解決方案仍面臨許多挑戰,如(一)對長篇文本理解有限:大多數的企業組織中有八成的資料都是非結構化文本,然而大多數AI難以有效地分析長篇文本並從中找到隱藏的資訊;(二)僅限關鍵字:許多AI解決方案只能搜索完全配對的單詞,無法辨識相關概念;(三)開發耗時:通常需要2到3個月來標記及下載大量資料來訓練系統,才能開發出閱讀自動化模型,無法對時間敏感的內容或資料庫較小的問題獲得觀點;(四)AI黑盒子:深度學習帶來的黑盒子問題造成分析結果無法被解釋,使得受監管的行業帶來重大的法律與財務風險。
資料來源:MIC,2021年6月 圖1 現今機器閱讀理解面臨課題
Kyndi透過自動化機器閱讀提高企業工作效率
Kyndi於2014年成立,總部位於美國加州,創立宗旨是協助知識工作者,讓他們每人每天的工作效率能夠提升100倍,目標客戶為政府單位、藥物開發商與金融服務業,目前第一大客戶為美國政府部門,對於美國政府的業務,提供可解釋與審核的AI系統以協助美國政府改變其公部門的業務流程。Kyndi基於自然語言的機器閱讀軟體(Reading Automation AI software),使用機器學習來簡化受監管的業務流程,優勢在於更迅速、更智慧與具可解釋性的分析所有長篇文本,讓用戶能更有效地掌握AI系統,檢驗判斷結果並提出合理解釋,並且提供股東或監管機構參考。
在傑出肯定上,2018年Kyndi入選「2018 CB Insights AI 100」並於2020年再度入選「2020 CB Insights AI 100」;2019年10月被選為「Gartner企業AI治理與道德回應的優秀供應商」。2020年入選2020 CB Insights Game changer,CB Insights將其列為透明可解釋性AI平台遊戲顛覆者;2021年Kyndi被世界經濟論壇評選為技術先鋒。這些殊榮肯定了Kyndi在機器閱讀理解與可解釋性AI平台的創新、指標性與影響力。
將大量複雜非結構文件中的數據資料快速結構化
Kyndi的產品是以機器閱讀理解為核心的「Kyndi自動化閱讀平台」(Reading Automation Engines),它以知識圖譜快速理解分析大量複雜的長篇文本,並且它的專利數據結構方式和演算方讓它的AI模型是具備可解釋性的。Kyndi自動化閱讀平台可自動執行人們以手動執行的一系列閱讀任務,包含掃描、略讀、精讀以及對閱讀內容進行優先排序。平台能夠加快閱讀過程,讓使用者能在大量文本中快速取得觀點,同時保持了類似於人類的解釋水平。
Kyndi自動化閱讀平台分為四大引擎,分別為發現引擎(Discovery Engine)、關聯引擎(Relevance Engine)、解釋引擎(Explanation Engine)和詞彙引擎(Lexicon Engines)。發現引擎用於處理第一階段的掃瞄與瀏覽動作,清除文本中的雜訊(如:不必要的格式、標點符號、頁碼或機密聲明文字等),以非監督式學習分類文檔,將一系列的非結構化文本經過辨識及分類找出關鍵字、片語或是自定義項目以了解重要內容並發現趨勢。其後將非結構化文本轉化為AI知識庫,其中包含有關聯的概念、主題和上下文關係、出現頻率等。
關聯引擎和解釋引擎主要是Kyndi的原型本體(Ontology)專利技術,原型本體分為概念相對性(Conceptual Relativity)和認知記憶(Cognitive Memory),概念相對性讓系統從資料中推論出的結構轉換為知識圖,在透過點與圖之間的雙向轉換用以解釋查找訊息。詞彙引擎可以讓Kyndi的平台辨識各行業或公司的專業術語,用戶可以自行創建專業術語或導入企業的專用詞典,讓Kyndi平台可以立即辨識該行業專用術語以加速產出結果與提高輸出品質。
資料來源:MIC,2021年6月 圖3 Kyndi自動化閱讀平台
機器閱讀朝模擬人類真實的閱讀情境與理解方向發展
隨著深度學習的進步,推進自然語言處理技術在各應用領域顯著的增長,機器閱讀理解可被視為自然語言處理領域中的重要基石,也是目前該研究領域的重點項目之一。然而,深度學習需要龐大的訓練資料、開發模型耗時以及黑盒子,讓基於深度學習的機器閱讀理解難以發揮的淋漓盡致,並且可能導致大量的時間與金錢耗費或是面臨嚴重的法律風險。
現今各行業,從金融服務到醫療健康再至政府機關,需要遵守法規和政策並且持續地保持合規性。Kyndi自動化閱讀平台以機器學習來簡化受監管行業的業務流程,並為企業和政府提供可審核的AI系統,Kyndi的優勢在於其專利技術讓訓練過程可以使用較少的資料完成,減輕在前期資料訓練負擔,並有助於減輕傳統深度學習方法可能引起的偏見。隨著自然語言的發展,越來越多研究朝向模擬人類真實的閱讀情境與理解方向發展,可解釋性的機器閱讀理解,若能直觀地呈現機器閱讀的過程與結果,是值得開發且關注的未來方向。
財團法人資訊工業策進會 產業情報研究所(MIC)
張皓甯 產業分析師