跳到主要內容
 

技術論壇

主題:為什麼我覺得Siri聽不太懂我在說什麼?

2020/05/08小文

224 10 0


客服機器人/語意分析類 語音辨識Siri

雖然Siri的語音辨識能力越來越精準但有些字句Siri就是聽不太懂,請問這是因為技術問題嗎?


10則留言

2020/05/11omnixri

0


這個問題或許可從二個方面來來看,首先是麥克風收音問題,聽不清楚當然就聽不懂,所以現在多半會加入多個麥克風來消除噪音、風切、加強人聲等功能,若再加上取樣頻率增加就會更語音更清晰許多。

 

第二個方面來看是語音內容訓練不足,比方說未大量納入台灣特有的台灣國語腔調,或者國台語或國英語甚至國台英語混雜一起說的內容,或者斷句方式,若再加上中文特有的同字不同音或同音不同義甚至輕重音就語義不同等問題,就很容易造成SIRI聽不懂的問題產生。

 

而這些問題是否有解呢?第一項硬體已逐漸改善,但第二項則有待SIRI對中文的加強,目前只有提供少量特殊自訂義語音命令的改善,解決如像連「Hi, Siri」都聽不懂,喚不醒的問題。

 

 


2020/05/12laisan86

0


我是覺得這問題問得太籠統了! Siri這類型的服務其實再智慧音箱還沒有推出的年代就有, 而且說實話用自然語言技術來說, 當年的技術恐怕還不算成熟

第一個是收音裝置, 麥克風的品質以及錄音給Siri聽當時的環境值得考量, 一般來說當然是外界干擾越少越好, 不過要是同時間很多App在後台運作, 處理機得要不斷地切換工作、占用資源, 勢必對於像是Siri來說多少會受影響

第二個是自然語言的處理與詞彙問題, 這跟App開發時的辭庫系統設計來說也是個挑戰! 尤其有些字句可能在定義上並不清楚, 對於Siri來說當然一頭霧水, 特別是中文裡面有不少字與音的變化對應, 複雜度比起許多國家的語文要高

 

不過說起來像是Siri這樣的東西, 應該以目前的眼光來看, 還不算太難做! 目前不少線上服務就可以免費提供給大家使用, 要不然你查查好比Wolfram這種就可以, 我也自己以前試做過一個 :

https://www.youtube.com/watch?v=jCZTOcmJRNs

其實只要提供有足夠的詞句當作樣本, 然後加上機器學習演算法來訓練電腦, 這方面比較有成效的就是RNN那類的演算法, 訓練後的電腦可以做語音轉文字Speech recognition, 再把語音轉成的文字透過自然語言處理NLP做進一步句意分析與處理, 那就能讓電腦根據人的口語達到回應的效果了

不過說來簡單可是做來也是得靠『工人智慧』就是~XXD

laisan86 2020/05/12 0



2020/05/12omnixri

0


最近科技部2020「科技大擂台 與AI對話」競賽4/24剛落幕。這是第二次舉辦,本次參考「華語文能力測驗」流利精通級難度,以更進階的閱讀、申論題為主,並搭配連續對話等考題,期望AI回答問題時,更深化「理解」語意後、進一步「思考」以完整的字句來對話。但很可惜的是第一名一千萬從缺,由此可得知中文有多難搞。有興趣的朋友可以參考一下先前科技部釋出的範例,看了就不難了解要完善一個自然對話系統有多難,因為連我都有可能答不上來呀。
https://www.facebook.com/watch/?v=2503399553308986

 

更完整新聞可參考  2020「科技大擂台 與AI對話」競賽結果揭曉
https://www.most.gov.tw/folksonomy/detail/4b14a040-0e62-4d29-be33-9880d7623527

 


2020/05/16bioasura

0


語音辨識最後的結果是要對應回對應的語料, 如果語音辨識前面已經沒有相關的資料集, 就算是每一個音Siri都聽的懂, 但是對應回一個語句的時候, 因為一個句子是詞的對應, 沒有正確的語料集合, 就無法預測回可能潛在的正確語句, 這樣的狀態其實顯示的情形是, 沒有準備好的資料集, 就沒有辦法對應正確的結果.

其實可以回頭思考一個狀態, 很多時候其實人本身溝通也會有這樣的現象, 這很像一個年輕人對一個老人說話, 所使用的詞語跟發音的方法不同, 也很多時候會聽不懂對方的語言跟詞彙的對應. Siri畢竟是美國人做的, 甚至區域的方言用詞也不一定相同, 也許日後看看Siri是否可以開放一個功能, 讓你教他認識這個世界更多的事情, 或許Siri就會知道怎樣將這些辨識錯誤的語句, 產生人們想要的比較正確的預測結果的對應資料集.

 

 


2020/05/18jingrul691

0


麥克風技術沒有突破性進步,這直接影響到這些服務的收音效果,如果這些服務無法收音,聽不到用戶所說的話,這就好像對著一個有聽力障礙的人說話,對方根本聽不到你在說什麼。

 


2020/05/18zhoujieren8

0


也許是詞彙量不夠的問題如果它是為你自動訂飛機票,那麼它還應該會認識地名、時間等成百上千的必須使用的詞彙,這是中等詞彙量語音識別系統;如果它是為了記者把口述的一篇稿件轉化成為文字,那麼計算機就必須有很大的詞彙量,才能夠勝任這樣的工作,這屬於大詞彙量語音識別系統。

 


2020/05/18chengxiansong2

0


一個同樣的問題,可能因為聊天的前後內容、情境,或主題,有不同的答案。 因為聽不懂或聽錯的誤解,以及回答僵化的限制,導致答非所問

 

 


2020/05/18ypei91510

0


也有可能是發音問題如果Siri聽不懂你講的,可將自己的問句打入Google Translate,然後按下發音鍵,重複多聽幾次,並shadow網頁/app的人工智慧發音來調整自己的發音,念了幾次直至自己覺得發音較沒問題後,再詢問Siri 試試看。

 


2020/05/18shuechang886

0


蘋果收購 AI 新創公司 Voysis,讓 Siri 更能聽懂人話據報導,現被刪除的網頁聲稱,Voysis 透過處理「我需要一台新 LED 電視」和「我的預算是 1,000 美元」等與零售相關短句縮小產品搜尋結果。有效的語言處理允許用戶更自然與人工智慧語音助理互動,消除記憶關鍵命令短語等障礙。

據了解,此解決方案基於 WaveNet 技術,是由 Google DeepMind 計畫在 2016 年引入。WaveNets 描述為「原始音頻波形的深層生成模型」,可用於生成模仿任何人類聲音的語音,提供更自然的虛擬助理體驗。看來,Voysis 將此方法應用於更準確採樣和翻譯人工智慧系統的人類語音命令。

 


2020/05/18junwei01

0


有方法可以訓練Siri的聽力,

Apple 早早就在iOS中,建立了這個訓練功能,

只要這樣做行了喔:

iPhone(或是任何iOS裝置)中,開啟『設定』。

然後點選『一般』>『輔助使用』>『語音』。

在語音的頁面中,拉到最下面,就會看到一個『發音』這個標籤,點進去。

進到『發音』的頁面後,會看到空空如也,一個全白的內容,但右上方有一個加號(『+』),點他。

點了『+』之後,把Siri老是聽不懂的字詞填入『字詞』欄位。

 


最新發表
智慧農業除了種植上的監控系統,還有什麼其他應用?
智慧農業的應用常見的是導入資訊科技與自動化控制系統,藉由先進環境監控、資料收集分析,讓農業脫離天然環境的控制、降低栽種成本、提高作物收成率及品質 那麼,智慧農業除了種植上的監控系統,還有什麼其他應用?
有沒有專為室內或溫室種植的智慧系統?
如果沒有智慧農業技術在溫室種植方面帶來的幫助,零售業和當地種植戶就不能夠透過最佳化環境條件,來實現農作物產量最大化以及縮短培植時間。 沒有數據分析也讓這些產業也無法實現節能節水效益,達到可持續發展的成效。 有沒有智慧系統是專門設計給市內或是溫室種植的啊?
加拿大新創公司BlueDot怎麼用AI預測武漢肺炎的爆發?
全球疫情爆發的這麼沒有徵兆,甚至連疫情如何傳遞都不知道,直到各地開始大爆發為止。那這家加拿大公司是如何用AI預測武漢肺炎的爆發啊?
【資料標註】解題團隊及出題單位的資料標註及整理需求交流
我是 Kevin,來自專門開發數據標註平台及工具的團隊。記得去年我也在論壇發過文,因為正值新一屆競賽,希望可以跟這次的團隊及單位交流了解標註方面的想法及需求。而且在這段時間我們的標註平台也有完成開發新的標註工具及流程,所以就跑來看看新工具可不可以更好的幫助解題團隊解決資料整理及標註的難題。現在我們主要透過結合已經成熟的 AI 模型及遷移學習來開發及提供自動標註系統,系統會先把大量的資料交給機器做基本的標註預測,然後再交由專業人手來進行調整及審核,以此加快標註時間及減少需要投入的人員。   以下是簡單的自動標註流程圖例:  另外我們也會替資料在品質、完整度及多樣性等方面去進行基本的「健康」檢測,減少因為資料的品質導致影響產出模型的效能,浪費了研究團隊的心血。   應用案例: 1. 自動化工業製造瑕疵/工序品質辨識 (影片、圖片自動標註系統) 2. 文件OCR、檔案資料提取、電子化 3. 語音文字轉錄、字幕生成 4. 對話內容辨識及分析 5. 其他 AI 工具以協助企業流程的自動化   如果在解題時遇到在資料整理、標註上的困難歡迎一起提出交流,也希望能透過我們在做的工具幫助各出題和解題團隊,協助大家更快找到交集,順利讓 AI 應用完美落地。   Kevin Wong 黃偉俊 Datax 集智坊 網站:https://datax.io/zh/requester.html Email: kevin.wong@datax.io LINE ID: waichunwong
有沒有聽得懂閩南語的語音辨識?這種語言辨識的設置難度在哪?
大家一定對於google語音助理和蘋果的siri小姐不陌生吧?! 但是如果要讓小眾的閩南語人士也可以一同感受語音助理的便利性,未來會有人開發閩南語的系統嗎?如果要開發這樣的語音辨識系統跟中文的有什麼不同?難易度又是如何呢?

熱門發表
如果提供影像辨識的訓練資料不足,AI電腦視覺技術是不是就派不上用場了?
目前深度學習很火,從醫療、零售、倉儲、工業到監控等,好像各種影像辨識都能用到,但往往在一個地方卡關,那就是沒有足夠大量且有代表性的資料提供"訓練",有沒有可能用少量資料來達成好的辨識效果呢?
【解題建議】利用OpenPose來解決骨架(姿態、行為)分析
此次出題有很多項目和姿態(行為)分析有關(如下所示),而其根本就是要先找出人的骨架,再加上時間序列來分析骨架各特徵點的位移,進而判定使用者的動作(類型)。 【華碼數位】 體適能動作與姿勢辨識:以影像分析運動者姿態。 【宸訊科技】 利用動態影像辨識技術完成對農民於田間作業之行為分類與分析並能結合AI技術、配合專家互動,持續調整分類學習精準度:從串流影像中分析農業作業姿態(行為) 。 【集思動力】 iSEM多裂肌脊椎運動AI體況分析應用:透過影像、視頻分析人體動作姿態是否滿足特定位置、角度。 【百一電子】 AI電腦視覺辨識男生/女生的情緒與動作事件 :透過視頻分析十六種動作行為。 【良品嚴選】 客戶輪廓分析與服務人員及時輔助系統:從視頻分析客戶在店面行為以提供智能零售。 【良品嚴選】 線上連結線下新零售之AI分析:從視頻中分析行銷手段是否改變消費者行為。 【艾爾塔科技】 線下零售數據消費者行為洞察與全通路數據整合:透過人流資訊分析及預測消費者行為。 【卡訊電子】 智慧教室語音與影像偵測數據AI分析:建立語音、影像辨識老師、學生行為以增進學習效益。 而在開源技術中以CMU的OpenPose最為知名,包含有身體、頭(臉部)、手等部位,有興趣的朋友可以參考一下 https://github.com/CMU-Perceptual-Computing-Lab/openpose
Time is money!如何讓製程最佳化、讓生產更簡單?
從網路時代到物聯網興起,工業 4.0 強調自動化與生產線聯網功能,而新一代的智慧工廠發展,則更仰賴邊際運算、AI 和數據分析。然而,究竟要如何讓製程最佳化,使得生產速度提升呢?
「魚兒魚兒水中游」,有辦法辨識魚缸中魚的種類、數量的變化,甚至是活動力嗎?
最近在搞魚菜共生,想用"聰明"的方法來觀察魚缸中魚兒的數量變化(有沒有死魚),再與水質狀況(如含氧量)做關聯,想用深度學習與影像辨識來解決這問題,甚至進一步分析出魚的個別及群體活動力,不知各位大大有沒有相關的經驗或作法可供參考呢?
請問,「老闆來了!」偵測器該怎麼用開源AI做到?
小弟有個問題來請教AIGO社群的大大們,我有個有點Crazy的點子,想在老闆在我的座位附近出現時,馬上在電腦前跳出警示訊息,當然,我可沒在做壞事....XD,只是想有些心理準備,你知道的~~ 當然,只辨識出老闆來了沒對各位大大應該挑戰度太低,那可否再辨識出老闆現在的心情好不好呢? 不知能否推薦開源又好上手的自架作法呢?

主題分類