:::

技術論壇

論壇首頁\
為什麼我覺得Siri聽不太懂我在說什麼?

需登入才能回答問題！

主題：為什麼我覺得Siri聽不太懂我在說什麼?

發文時間 2020/05/08 作者小文

瀏覽次數 2297 留言數量 10 按讚 0

客服機器人/語意分析類語音辨識Siri

雖然Siri的語音辨識能力越來越精準，但有些字句Siri就是聽不太懂，請問這是因為技術問題嗎?

我要留言

回覆

10則留言

發文時間 2020/05/11 作者 omnixri

按讚 0

這個問題或許可從二個方面來來看，首先是麥克風收音問題，聽不清楚當然就聽不懂，所以現在多半會加入多個麥克風來消除噪音、風切、加強人聲等功能，若再加上取樣頻率增加就會更語音更清晰許多。

第二個方面來看是語音內容訓練不足，比方說未大量納入台灣特有的台灣國語腔調，或者國台語或國英語甚至國台英語混雜一起說的內容，或者斷句方式，若再加上中文特有的同字不同音或同音不同義甚至輕重音就語義不同等問題，就很容易造成SIRI聽不懂的問題產生。

而這些問題是否有解呢？第一項硬體已逐漸改善，但第二項則有待SIRI對中文的加強，目前只有提供少量特殊自訂義語音命令的改善，解決如像連「Hi, Siri」都聽不懂，喚不醒的問題。

回覆

發文時間 2020/05/12 作者 laisan86

按讚 0

我是覺得這問題問得太籠統了! Siri這類型的服務其實再智慧音箱還沒有推出的年代就有, 而且說實話用自然語言技術來說, 當年的技術恐怕還不算成熟

第一個是收音裝置, 麥克風的品質以及錄音給Siri聽當時的環境值得考量, 一般來說當然是外界干擾越少越好, 不過要是同時間很多App在後台運作, 處理機得要不斷地切換工作、占用資源, 勢必對於像是Siri來說多少會受影響

第二個是自然語言的處理與詞彙問題, 這跟App開發時的辭庫系統設計來說也是個挑戰! 尤其有些字句可能在定義上並不清楚, 對於Siri來說當然一頭霧水, 特別是中文裡面有不少字與音的變化對應, 複雜度比起許多國家的語文要高

不過說起來像是Siri這樣的東西, 應該以目前的眼光來看, 還不算太難做! 目前不少線上服務就可以免費提供給大家使用, 要不然你查查好比Wolfram這種就可以, 我也自己以前試做過一個 :

https://www.youtube.com/watch?v=jCZTOcmJRNs

其實只要提供有足夠的詞句當作樣本, 然後加上機器學習演算法來訓練電腦, 這方面比較有成效的就是RNN那類的演算法, 訓練後的電腦可以做語音轉文字Speech recognition, 再把語音轉成的文字透過自然語言處理NLP做進一步句意分析與處理, 那就能讓電腦根據人的口語達到回應的效果了

不過說來簡單可是做來也是得靠『工人智慧』就是~XXD

作者 laisan86 發文時間 2020/05/12 按讚 0

回覆

發文時間 2020/05/12 作者 omnixri

按讚 0

最近科技部2020「科技大擂台與AI對話」競賽4/24剛落幕。這是第二次舉辦，本次參考「華語文能力測驗」流利精通級難度，以更進階的閱讀、申論題為主，並搭配連續對話等考題，期望AI回答問題時，更深化「理解」語意後、進一步「思考」以完整的字句來對話。但很可惜的是第一名一千萬從缺，由此可得知中文有多難搞。有興趣的朋友可以參考一下先前科技部釋出的範例，看了就不難了解要完善一個自然對話系統有多難，因為連我都有可能答不上來呀。
https://www.facebook.com/watch/?v=2503399553308986

更完整新聞可參考 2020「科技大擂台與AI對話」競賽結果揭曉
https://www.most.gov.tw/folksonomy/detail/4b14a040-0e62-4d29-be33-9880d7623527

回覆

發文時間 2020/05/16 作者 bioasura

按讚 0

語音辨識最後的結果是要對應回對應的語料, 如果語音辨識前面已經沒有相關的資料集, 就算是每一個音Siri都聽的懂, 但是對應回一個語句的時候, 因為一個句子是詞的對應, 沒有正確的語料集合, 就無法預測回可能潛在的正確語句, 這樣的狀態其實顯示的情形是, 沒有準備好的資料集, 就沒有辦法對應正確的結果.

其實可以回頭思考一個狀態, 很多時候其實人本身溝通也會有這樣的現象, 這很像一個年輕人對一個老人說話, 所使用的詞語跟發音的方法不同, 也很多時候會聽不懂對方的語言跟詞彙的對應. Siri畢竟是美國人做的, 甚至區域的方言用詞也不一定相同, 也許日後看看Siri是否可以開放一個功能, 讓你教他認識這個世界更多的事情, 或許Siri就會知道怎樣將這些辨識錯誤的語句, 產生人們想要的比較正確的預測結果的對應資料集.

回覆

發文時間 2020/05/18 作者 jingrul691

按讚 0

麥克風技術沒有突破性進步，這直接影響到這些服務的收音效果，如果這些服務無法收音，聽不到用戶所說的話，這就好像對著一個有聽力障礙的人說話，對方根本聽不到你在說什麼。

回覆

發文時間 2020/05/18 作者 zhoujieren8

按讚 0

也許是詞彙量不夠的問題，如果它是為你自動訂飛機票，那麼它還應該會認識地名、時間等成百上千的必須使用的詞彙，這是中等詞彙量語音識別系統;如果它是為了記者把口述的一篇稿件轉化成為文字，那麼計算機就必須有很大的詞彙量，才能夠勝任這樣的工作，這屬於大詞彙量語音識別系統。

回覆

發文時間 2020/05/18 作者 chengxiansong2

按讚 0

一個同樣的問題，可能因為聊天的前後內容、情境，或主題，有不同的答案。因為聽不懂或聽錯的誤解，以及回答僵化的限制，導致答非所問。

回覆

發文時間 2020/05/18 作者 ypei91510

按讚 0

也有可能是發音問題，如果Siri聽不懂你講的，可將自己的問句打入Google Translate，然後按下發音鍵，重複多聽幾次，並shadow網頁／app的人工智慧發音來調整自己的發音，念了幾次直至自己覺得發音較沒問題後，再詢問Siri 試試看。

回覆

發文時間 2020/05/18 作者 shuechang886

按讚 0

蘋果收購 AI 新創公司 Voysis，讓 Siri 更能聽懂人話，據報導，現被刪除的網頁聲稱，Voysis 透過處理「我需要一台新 LED 電視」和「我的預算是 1,000 美元」等與零售相關短句縮小產品搜尋結果。有效的語言處理允許用戶更自然與人工智慧語音助理互動，消除記憶關鍵命令短語等障礙。

據了解，此解決方案基於 WaveNet 技術，是由 Google 的 DeepMind 計畫在 2016 年引入。WaveNets 描述為「原始音頻波形的深層生成模型」，可用於生成模仿任何人類聲音的語音，提供更自然的虛擬助理體驗。看來，Voysis 將此方法應用於更準確採樣和翻譯人工智慧系統的人類語音命令。

回覆

發文時間 2020/05/18 作者 junwei01

按讚 0

有方法可以訓練Siri的聽力，

Apple 早早就在iOS中，建立了這個訓練功能，

只要這樣做行了喔：

在iPhone(或是任何iOS裝置)中，開啟『設定』。

然後點選『一般』>『輔助使用』>『語音』。

在語音的頁面中，拉到最下面，就會看到一個『發音』這個標籤，點進去。

進到『發音』的頁面後，會看到空空如也，一個全白的內容，但右上方有一個加號(『＋』)，點他。

點了『+』之後，把Siri老是聽不懂的字詞填入『字詞』欄位。

回覆

最新發表

疫情使企業「數位轉型」迫在眉睫，但員工身心靈都已裝備到位了嗎?

2021年全球疫情因疫苗問世漸趨和緩；台灣也正從新一波疫情高峰中逐步獲得控制，但仍不鬆懈。「數位轉型」即是企業追求長遠生存，逆勢求生的唯一手段。不只是數位工具的導入，其員工數位能力的提升及心態健康程度，更是決定企業能否在這場「防疫持久戰」致勝的關鍵! 企業的「數位轉型」不只包含了「數位化」—將實體的資訊轉成為電子化，儲存於電腦或是雲端中，加速作業效率。更重要是藉由「數位化」基礎，在營運流程、顧客體驗及商業模式等策略中，結合數位工具，提升工作效率並賦予全新的價值，增加市場競爭力。所以，擁有數位腦袋和開放態度的人才，就顯得格外重要!但對於資源不是非常多的企業(可能員工數僅百人以下)，不太可能立即擴大招覽相關人才。那麼，就從既有人才上，去轉型、賦能優化吧! 如何幫助員工快速升級，符合企業「數位轉型」戰略目標? 需針對不同部門、不同專業類別的員工，制定相應的學習計畫。從具有架構化的學習開始:以員工學習體驗為導向，滿足員工碎片化學習需求，著重提升學習效率與成果，內容即時因應企業變革成與轉型訴求，在企業有限資源下達到最佳學習成果! 所以，相應教材與學習系統就須同時兼備『快速產製教材』及『穩定學習品質』兩大特性。而「AI智能影音」平台即能達到上述需求，使企業人力培訓上縮短員工訓練時程，加速應用所學，為企業在艱困時，深蹲打好基礎。「AI智能影音」平台運用大數據、AI自然語言處理、電腦視覺技術等技術，能自動將文字匹配靜態圖與動態影音，並使平台內的影音模型藉由反覆訓練，合成出符合觀眾閱聽行為且具有品質的影音內容。平台最大優勢為，使用者只要將一段文字匯入平台，5分鐘內產出約1分到1分半的影片，不需要額外找素材，其影片的內容就是自百萬商用授權素材庫(包含靜態圖像、動態影音、背景音樂)。大幅縮短原先產製教學影片的時程，中小型企業也能因應市場變化，動態調整教學內容!不增加培訓人員與受訓人員工作負擔。「數位轉型」是企業須即刻on上日期的專案，數位工具使用與員工賦能就是第一步。全球市場瞬息萬變，難保未來不再有意外。企業應自日常扎根，在非常時期宛如期中考般，考核過去在數位轉型上的投資，方向是否正確?是否風暴中向前挺進?收割推動轉型的豐碩果實，為企業營收再創新高峰! 點擊看更多企業案

數位轉型時代人才職能的再進化

近年來全球資訊產業趨勢變化快速，雲端運算、物聯網、資料科學、人工智慧和5G行動通訊等尖端技術日新月異的發展應用，帶動了數位經濟的興起，並同時重塑了全球經濟結構。根據世界經濟論壇(WEF)的預測，2022年全球GDP將有六成來自數位經濟，可見數位經濟的發展對全球經濟未來趨勢影響之重大，而其影響自然也將及於人力資源市場。產業面臨這一波數位轉型，正如當初個人電腦、網際網路的普及一樣，將會完全翻轉全球經濟、以及企業現有的商業模式。過往數位科技人才大多為資通訊及高科技產業所需求，隨著產業積極導入數位工具及人工智慧應用、企圖尋求下一波創新成長動能，各行各業展開數位科技人才爭奪，根據國家發展委員會對於臺灣未來十年人力市場之預估，數位人才將呈現大規模人力缺口。 AI取代工作還是創造機會科技帶來翻天覆地的影響，新興領域之人才需求不斷攀升，嶄新的商業模式、跨領域的整合應用也層出不窮。迎接新科技帶來新工作機會的同時，人才技能必須時常更新，以掌握未來世界的人力需求及工作樣態的變化。根據臺灣經濟研究院研究報告指出，隨著人工智慧、物聯網、大數據、資訊安全等技術發展，將會為我國帶來新的人力需求；反之，設備操作、倉儲物流、行政庶務等事務性及高重複性工作，則可能因新科技而受到衝擊。然而，人類的工作真的會被AI和機器人取代嗎？國際研究暨顧問機構Gartner指出，2020年，雖然有180萬個職位被AI取代，不過同時AI也將創造230萬個工作機會，帶動整體工作機會正成長。未來的人力資源趨勢將是人工智慧結合人腦的工作型態，隨著自動化科技的引進顛覆人類在工作上所扮演角色，勞動者必須具備新的技術和能力，以因應這一波數位趨勢。人才職能重塑已是世代常態各種新興科技正在重塑我們的世界，我們是否都準備好了呢？現今企業普遍面臨相當大之人才挑戰，人才競爭態勢只會越來越激烈，數位科技浪潮下，在可預見的未來，機器人或人工智慧一定會對企業人力運用造成影響，企業數位轉型已經是勢在必行的壓力，就公司而言，企業所需的人才技能隨著公司經營策略的調整均在不斷轉變中，人才需要積極主動、擁抱改變，人才所具備的技能如不隨著大環境的變動，將面臨無法與時俱進的風險、最終可能被市場淘汰。過去用一把刷子行走職場、或是十年磨一劍的年代已經過去，單一技能很容易被潮流取代、唯有具備數位科技、跨領域專長的人才方能在瞬息萬變的職場上勝出。世界經濟論壇的報告指出，全球所有受雇員工有半數以上(54%)需要在未來三年內接受大幅度的技能重塑與提升訓練。而數位科技人才常需隨趨勢發展而更新專業能力，根據之前Gartner的一份調查，職場員工平均每三年需更新一次職務內容與數位科技專業能力。職能再進化先找出自己的型在這波數位技能革命中，企業必須打造新的人才職能規格、於公司內部創造並鼓勵員工持續學習的環境和文化，同時協助員工捨棄舊技能與發展工作所需新技能。由於企業很難找到各方面條件都符合的現成人選，招募到合適的人才所需之時間已經越來越長。有越來越多的企業支持從既有的員工進行在職培訓，並轉型為數位科技人才，不僅有效降低企業招募時間與經費成本，也可以避免招募到的員工不適任無法久留的風險。越來越多的企業正在提高技能重塑的投資，在企業發展數位轉型的同時，偕同組織內的人才一起精進、重塑員工技能，及早做好職能轉型的全面準備。然而，職能轉型並非一件容易的事情，根據108年經濟部人工智慧產業人才需求調查發現，並非所有現職員工都能成功轉型人工智慧人才，最被企業看好且轉型成功率高的人才通常已具備相當基礎(有型)、在這個基礎上進行職能轉型較容易成功；例如工程類職務(如：系統工程師、後端軟體工程師) 本身即具有程式撰寫、系統開發能力，較容易轉型為機器學習工程師及AI應用工程師等AI新興職務。而資料類職務(如：資料庫工程師、統計分析師)已具有資料庫或數據分析等基礎，亦容易轉型為資料工程師或資料分析師。而一般常見的產品經理、專案經理及行銷企劃專員等職務，已具備專案管理、產品管理、行銷推廣、跨部門溝通…等軟實力，若能再強化AI相關基礎知識，也容易轉型為AI專案經理或AI產品經理。生命不息學習不止迅速和持續變化的工作性質正在改變學習與工作間的關係，當我們一直被機器追趕著學習新技能，如何能夠有效應對新世代的變遷、在數位經濟的潮流中成為未來產業所亟需的人才？在數位時代的潮流之下，新世代的人才需要透過不同管道不斷精進自我，才能持續增加自己的附加價值，而不被時代所淘汰。未來的人才唯有在終生學習、科技協作、軟技能和環境應變等四個面向深化努力，方能應對快速變遷、日新月異的產業趨勢。在終生學習方面，除了持續學習的腳步外，在學習的方向上，也要注意學習內容與工作之融合度，以期能符合實際工作的職能需求，此外考量個人能力及人格特質做個性化的學習，也對強化自身附加價值，以及未來職涯的發展有所助益；在科技協作方面，隨著AI與自動化的興起，新的工作型態對人機協作的需求也越來越高，在人類主導的情況下，由機器提供輔助進行工作，將會成為產業從人工朝向智慧化發展過程中過渡的第一步，因此在科技協作的學習投入，將能有效幫助人才面對AI化與自動化的挑戰；軟技能是人類勝出機器的關鍵，包括溝通、思考和創意等在現今這個科技時代愈趨重要，未來人才需要培養機器所無法取代的能力，以增進自身在職場的不可取代性；在環境應變方面，由於近年來產業趨勢的變遷快速，新技術的推陳出新使得人才在適應環境變化上的需求大幅提升，未來的人才也需要像電腦持續定期更新，隨時檢視自己的技能、擁有持續重塑自己以靈活應變的能力，才能在時代的潮流中維持競爭力! 財團法人資訊工業策進會∕數位教育研究所∕數位轉型訓練中心陳麗萍組長

AI創作音樂有可能成為一種新趨勢嗎？

音樂是全世界共通的語言，大家都同樣使用12個音符，但卻能創造出各種風格的音樂。目前主打透過AI生成音樂的服務越來越多，在國外還有透過 AI 即時生成電子樂的音樂串流服務，這樣的音樂創作方式有可能會成為趨勢嗎？

到了5G時代，那麼邊緣運算會有何不同嗎？

我們都知道物聯網的概念開啟了科技應用的新視野，當越來越多元件走向微型化、智慧化，數據海嘯也隨之而來，如何讓這些裝置以最有效率的方式運作，互通有無，並發揮大數據的優勢，成了當務之急。邊緣運算便是實現運算資源佈局最佳化的關鍵途徑，不過現在有了5G的出現，對於邊緣運算會有什麼影響呢？

最近在AI資料分析常使用到的"增強分析"是什麼意思?

「增強分析」（augmented analytics）被預測為今年十大戰略趨勢，它對一般企業來說意味著什麼？對數據科學家來說影響又有多大？希望可以了解一下

熱門發表

如果提供影像辨識的訓練資料不足，AI電腦視覺技術是不是就派不上用場了？

目前深度學習很火，從醫療、零售、倉儲、工業到監控等，好像各種影像辨識都能用到，但往往在一個地方卡關，那就是沒有足夠大量且有代表性的資料提供"訓練"，有沒有可能用少量資料來達成好的辨識效果呢？

【解題建議】利用OpenPose來解決骨架(姿態、行為)分析

此次出題有很多項目和姿態(行為)分析有關(如下所示)，而其根本就是要先找出人的骨架，再加上時間序列來分析骨架各特徵點的位移，進而判定使用者的動作(類型)。【華碼數位】體適能動作與姿勢辨識：以影像分析運動者姿態。【宸訊科技】利用動態影像辨識技術完成對農民於田間作業之行為分類與分析並能結合AI技術、配合專家互動，持續調整分類學習精準度：從串流影像中分析農業作業姿態(行為) 。【集思動力】 iSEM多裂肌脊椎運動AI體況分析應用：透過影像、視頻分析人體動作姿態是否滿足特定位置、角度。【百一電子】 AI電腦視覺辨識男生/女生的情緒與動作事件：透過視頻分析十六種動作行為。【良品嚴選】客戶輪廓分析與服務人員及時輔助系統：從視頻分析客戶在店面行為以提供智能零售。【良品嚴選】線上連結線下新零售之AI分析：從視頻中分析行銷手段是否改變消費者行為。【艾爾塔科技】線下零售數據消費者行為洞察與全通路數據整合：透過人流資訊分析及預測消費者行為。【卡訊電子】智慧教室語音與影像偵測數據AI分析：建立語音、影像辨識老師、學生行為以增進學習效益。而在開源技術中以CMU的OpenPose最為知名，包含有身體、頭(臉部)、手等部位，有興趣的朋友可以參考一下 https://github.com/CMU-Perceptual-Computing-Lab/openpose

數據「學」無止盡！機器學習、深度學習、統計學究竟差在哪？

數據當道的現今，多少人、事、物受惠於這些龐大的數據分析和學習，但你知道機器學習、深度學習、統計學的差異是什麼嗎？

CES展上發佈的蚊子偵測器怎麼辨別這種微小差異的?

以色列新創業者Bzigo在CES展出一款室內蚊子或小型飛蟲偵測器，宣稱能夠偵測距離8公尺內的蚊子、追蹤蚊子飛行的軌跡，但蚊子很小隻且飛行速度不慢，實際可以偵測到的成效不知道如何，怎麼辨別蚊子或小型飛蟲和其他東西的差異?  

Time is money！如何讓製程最佳化、讓生產更簡單？

從網路時代到物聯網興起，工業 4.0 強調自動化與生產線聯網功能，而新一代的智慧工廠發展，則更仰賴邊際運算、AI 和數據分析。然而，究竟要如何讓製程最佳化，使得生產速度提升呢？

主題分類