題目敘述
審檢乃至警調系統訴追犯罪,筆錄的完整及製作效率非常重要,以往都是由書記官聽打製作筆錄,不但讓書記官業務繁重,尤其是當事人的應訊內容,對後續案件偵辦有牽一髮而動全身的效力,書記官繕打筆錄的完整性及正確性,在後續的審理過程中甚至成為攻防的重點。現有技術中的語音識別只是單純語音轉文字,但是要作為一份正確的筆錄仍是不足的,因此希望可以透過AI技術,除了可以利用該系統於偵訊過程即時產製應訊完整逐字稿,包含去除贅字、基於法律用語糾錯,並自動標示偵查庭發言人別,以完整記錄偵訊內容,保障民眾權益,另亦減輕書記官繕打筆錄工作負荷,加快開庭效率,同時可以推廣到警察或調查局乃至行政機關行政調查等筆錄製作。
題目細節:
為協助順利產業及出題單位導入AI服務,請各提供約100-300字之詳細描述:
(1) 題目背景(含現行自身/同業處理方式)與產業重要性
法院暨檢察署之開庭及偵訊均要記載相關利害關係人之證詞內容並要全程連續錄音,以作為審理或調查之重要基礎,例如依刑事訴訟法第41條,訊問被告、自訴人、證人、鑑定人及通譯,應當場製作筆錄,訊問被告應全程連續錄音。法務部為保全各級檢察署偵查庭偵查過程,除依規定製作筆錄外,並於92年全面安裝偵查庭錄音錄影設備,以錄音錄影的方式真實記錄偵查庭活動的過程,以於對筆錄有爭執時,可以正確的查證。
(2) 問題情境與痛點(Pain point)
1. 法庭開庭時雖經錄音或錄影,書記官仍應就當事人或其他關係人之陳述,當庭依法製作筆錄,因筆錄過程十分緊湊忙碌,筆錄的完整及效率非常重要。
2. 市面上語音辨識軟體早已開發多年,各種逐字稿應用程式由於錯誤率仍相當高,事後修改幅度不小,實質上未減輕法院使用者之工作負擔,因此普及性並不佳。
(3) 預期透過AI達到的目的與利益點(Gain)
要透過語音識別轉換成可用之筆錄內容,目前需要克服的問題有兩項,是希望在本題中解決的。
1. 根據說話內容自動標示發言人別,在法院開庭或偵查庭中會包括法官、檢察官、書記官以及詢問被告或證人等利害關係人角色,雖然實際每個人物會有變動,但是角色卻是固定的,而且每個角色都可以從發言內容與模式中判斷。
其中法院庭訊法官或檢察官與書記官發言內容有部分為固定,且多半使用專業法律術語,在筆錄製作過程中,法官或檢察官多半使用問句,而詢問被告則多半是口語作答...。這些內容的特徵足以判斷發言人的角色。在筆錄製作過程應該是基於說話內容來自動標示發言人別或利用預先判定之關鍵字,例如稱呼被告或庭上等用語可以自動標示。
2. 語音轉文字過程中,仍會出現辨識錯誤,應該要透過自然語言理解技術以及法律用語詞彙表,將語音識別結果糾錯(主要是基於同音錯字的判斷,以及法律詞彙表),以突破語音識別技術門檻。
本題主要是關注法庭內容語音轉文字後的處理,因此數據層面會提供歷史偵查庭的錄音(未來解題團隊可根據此語音轉文字產生輸入資料),以及對應的筆錄文字稿,作為答案來進行建模。
(4) 技術完成後的使用對象
提供法院、檢察署、調查局、警察、律師等於庭訊時輔助文件工作。
(5)成果應用方式及情境等內容
整合筆錄及錄音、錄影裝置,除了簡化書記官作業,亦可作為利害關係人紀錄及確認並導入數位簽章之無紙化作業。
資料型態
可以洽商法院或檢察署等單位提供案件已經確定之錄音檔及文字檔作為建模使用
歷史案件的國語錄音檔(Mp3)
對應文字筆錄檔(word格式Docx)
資料集整備度與細節說明
1. 法院提供之國語錄音檔(1,000份) ,解題團隊可根據此語音轉文字產生輸入資料
2. 對應文字筆錄記載內容(1,000份) (筆錄紀錄內容為按照角色對話時間序,可明顯得知法庭活動人物各角色問答內容及情境,解題團隊可判斷出那段聲音為誰的文檔。)
期望成果需求
1. 法庭活動人物角色自動標示,正確率達80%以上
2. 筆錄糾錯後CER(Character Error Rate,字元錯誤率),字元錯誤率能夠較原有值降低5%(現有語音轉文字字元錯誤率約在15%左右)
可提供之解題資源
法律專業窗口一人
額外獎勵誘因
無
出題單位
國巨律師事務所
單位(公司)簡介
國巨律師事務所整合多元人才,長期投入資訊科技法律暨個人資料保護議題,並於2019-2021年經全球知名權威性國際律師事務所評等機構Legal 500評鑑為推薦事務所。同時,參與多項政府重要資訊基礎建設,從工商憑證普及發卡,乃至財政部電子發票整合規劃及大數據應用,及近期數位國民身分證規劃暨經濟部區塊鏈電子公文送達平台等專案。為提供政府暨企業數位轉型所需之政策及法律規劃,引導新型態科技合作整合生態系,戮力發展創新應用所需之專業服務。
其他備註
無