跳到主要內容
 
:::

競賽細節

題目敘述
審檢乃至警調系統訴追犯罪,筆錄的完整及製作效率非常重要,以往都是由書記官聽打製作筆錄,不但讓書記官業務繁重,尤其是當事人的應訊內容,對後續案件偵辦有牽一髮而動全身的效力,書記官繕打筆錄的完整性及正確性,在後續的審理過程中甚至成為攻防的重點。現有技術中的語音識別只是單純語音轉文字,但是要作為一份正確的筆錄仍是不足的,因此希望可以透過AI技術,除了可以利用該系統於偵訊過程即時產製應訊完整逐字稿,包含去除贅字、基於法律用語糾錯,並自動標示偵查庭發言人別,以完整記錄偵訊內容,保障民眾權益,另亦減輕書記官繕打筆錄工作負荷,加快開庭效率,同時可以推廣到警察或調查局乃至行政機關行政調查等筆錄製作。 題目細節: 為協助順利產業及出題單位導入AI服務,請各提供約100-300字之詳細描述: (1) 題目背景(含現行自身/同業處理方式)與產業重要性 法院暨檢察署之開庭及偵訊均要記載相關利害關係人之證詞內容並要全程連續錄音,以作為審理或調查之重要基礎,例如依刑事訴訟法第41條,訊問被告、自訴人、證人、鑑定人及通譯,應當場製作筆錄,訊問被告應全程連續錄音。法務部為保全各級檢察署偵查庭偵查過程,除依規定製作筆錄外,並於92年全面安裝偵查庭錄音錄影設備,以錄音錄影的方式真實記錄偵查庭活動的過程,以於對筆錄有爭執時,可以正確的查證。 (2) 問題情境與痛點(Pain point) 1. 法庭開庭時雖經錄音或錄影,書記官仍應就當事人或其他關係人之陳述,當庭依法製作筆錄,因筆錄過程十分緊湊忙碌,筆錄的完整及效率非常重要。 2. 市面上語音辨識軟體早已開發多年,各種逐字稿應用程式由於錯誤率仍相當高,事後修改幅度不小,實質上未減輕法院使用者之工作負擔,因此普及性並不佳。 (3) 預期透過AI達到的目的與利益點(Gain) 要透過語音識別轉換成可用之筆錄內容,目前需要克服的問題有兩項,是希望在本題中解決的。 1. 根據說話內容自動標示發言人別,在法院開庭或偵查庭中會包括法官、檢察官、書記官以及詢問被告或證人等利害關係人角色,雖然實際每個人物會有變動,但是角色卻是固定的,而且每個角色都可以從發言內容與模式中判斷。 其中法院庭訊法官或檢察官與書記官發言內容有部分為固定,且多半使用專業法律術語,在筆錄製作過程中,法官或檢察官多半使用問句,而詢問被告則多半是口語作答...。這些內容的特徵足以判斷發言人的角色。在筆錄製作過程應該是基於說話內容來自動標示發言人別或利用預先判定之關鍵字,例如稱呼被告或庭上等用語可以自動標示。 2. 語音轉文字過程中,仍會出現辨識錯誤,應該要透過自然語言理解技術以及法律用語詞彙表,將語音識別結果糾錯(主要是基於同音錯字的判斷,以及法律詞彙表),以突破語音識別技術門檻。 本題主要是關注法庭內容語音轉文字後的處理,因此數據層面會提供歷史偵查庭的錄音(未來解題團隊可根據此語音轉文字產生輸入資料),以及對應的筆錄文字稿,作為答案來進行建模。 (4) 技術完成後的使用對象 提供法院、檢察署、調查局、警察、律師等於庭訊時輔助文件工作。 (5)成果應用方式及情境等內容 整合筆錄及錄音、錄影裝置,除了簡化書記官作業,亦可作為利害關係人紀錄及確認並導入數位簽章之無紙化作業。


資料型態
可以洽商法院或檢察署等單位提供案件已經確定之錄音檔及文字檔作為建模使用 歷史案件的國語錄音檔(Mp3) 對應文字筆錄檔(word格式Docx)


資料集整備度與細節說明
1. 法院提供之國語錄音檔(1,000份) ,解題團隊可根據此語音轉文字產生輸入資料 2. 對應文字筆錄記載內容(1,000份) (筆錄紀錄內容為按照角色對話時間序,可明顯得知法庭活動人物各角色問答內容及情境,解題團隊可判斷出那段聲音為誰的文檔。)


期望成果需求
1. 法庭活動人物角色自動標示,正確率達80%以上 2. 筆錄糾錯後CER(Character Error Rate,字元錯誤率),字元錯誤率能夠較原有值降低5%(現有語音轉文字字元錯誤率約在15%左右)


可提供之解題資源
法律專業窗口一人


額外獎勵誘因


出題單位
國巨律師事務所


單位(公司)簡介
國巨律師事務所整合多元人才,長期投入資訊科技法律暨個人資料保護議題,並於2019-2021年經全球知名權威性國際律師事務所評等機構Legal 500評鑑為推薦事務所。同時,參與多項政府重要資訊基礎建設,從工商憑證普及發卡,乃至財政部電子發票整合規劃及大數據應用,及近期數位國民身分證規劃暨經濟部區塊鏈電子公文送達平台等專案。為提供政府暨企業數位轉型所需之政策及法律規劃,引導新型態科技合作整合生態系,戮力發展創新應用所需之專業服務。


其他備註


* 題目因實際數據改變或其他不可抗力之事由,出題企業保有修改、變更或取消題目之權利。

相關競賽
消防救護無線電通話AI降噪
新北市消防局救災救護中心每年平均接收到20萬通救護電話,當市民電話通報後,救護中心值勤員按著SOP程序確認救護對象狀況,就啟動無線通報系統派遣與引導相關救護車與救護人員到現場進行救護,這過程中必須持續透過無線電引導與溝通,在緊急且須搶時間的狀況下,無線電收聽訊息之清晰度是強化救護人員判斷、爭取短時間搶救生命的第一要件。但實際上,無線電本身會受到背景噪音(例如救護車聲響、民眾呼喊聲)以及訊號干擾所產生的雜訊。而無線電訊號除了供現場救護人員使用,同時也會提供給救災救護中心,現行作業是人工聽打輸入系統,以便進行各單位橫向溝通使用。但由於這些噪音造成無法順利透過現有語音識別技術進行語音轉文字。 此外,語音識別技術最適合的聲音採樣率是16KHz,而無線電傳輸則是8KHz,採樣率不足也是限制了無線電通話整合語音轉文字技術的關鍵。因此除了去噪之外,也需要將音頻訊號轉換到16KHz,因此需要借鑒AI的超解析度技術,將音頻採樣率提升。
消防救護通話語音AI意圖識別
在救災過程中,指揮中心值勤員與派遣救護人員之間的無線電通話內容是指揮中心唯一了解現場狀況的信息來源,然而在救災過程中,往往因為現場狀態多變,因此通話過程中與檔案,在新北市消防局未來推動與規劃救護自動派遣至關重要。透過語音檔案之清洗與整理,建立語料庫,使資料產生價值,並透過AI意圖識別技術解析通話傳達的意圖,以作為對應行動處置應用。
基於語音辨識於法庭筆錄之應用
審檢乃至警調系統訴追犯罪,筆錄的完整及製作效率非常重要,以往都是由書記官聽打製作筆錄,不但讓書記官業務繁重,尤其是當事人的應訊內容,對後續案件偵辦有牽一髮而動全身的效力,書記官繕打筆錄的完整性及正確性,在後續的審理過程中甚至成為攻防的重點。現有技術中的語音識別只是單純語音轉文字,但是要作為一份正確的筆錄仍是不足的,因此希望可以透過AI技術,除了可以利用該系統於偵訊過程即時產製應訊完整逐字稿,包含去除贅字、基於法律用語糾錯,並自動標示偵查庭發言人別,以完整記錄偵訊內容,保障民眾權益,另亦減輕書記官繕打筆錄工作負荷,加快開庭效率,同時可以推廣到警察或調查局乃至行政機關行政調查等筆錄製作。
護心守衛─提升救護車12導程心電圖病徵判讀準確率與加強後續應用的擴散效益
本局擬藉由過往救護車載12導程心電圖機EKG設備收集的資料,依循既有開放資料格式建置開放資料後,搭配坊間心電圖病徵樣本,提升判讀病徵的準確率,建立起相對應的AI-BOT,串接資料加強後續應用並提供線上輔助判讀服務,藉此充分利用12導程心電圖資料與加強後續擴散應用效益。
應用深度學習技術建構品牌輿情之公關危機估測模型
社群媒體的興起,對公關產業而言,意味著品牌與公眾溝通的管道變得更加複雜且即時,但越多的媒體管道對品牌猶如雙刃劍,如因未即時阻斷負面發酵或處理方式不恰當,便容易演變成公關危機,而公關危機處理其最佳因應方式,便是即時發現正在醞釀成形的危機關鍵訊息,在第一時間設法加以控制,避免對品牌的負面訊息繼續擴散,避免損害到客戶的品牌價值,甚至若能更進一步化危機為轉機,才能真正體現公關產業的價值所在。 本題希望能藉此開發一個足夠精確的品牌輿情之公關危機估測模型,能針對輿情報導自動化探勘出對品牌公關危機之評量分數,並發掘出危機關鍵詞組,提供公關處理人員決策輔助之用。