技術文章
2021-11-16 AIGO計劃辦公室 2938
使用者以圖像社群網站來尋找產品與靈感
近年來網路搜尋引擎與社群平台成為人們生活中的重要一環,許多民眾在社群上分享居家裝潢與產品介紹,也形成了各種眾包圖像網站,可以讓使用者利用該平台分享個人創意設計、室內居家布置或產品圖片等,如美國受歡迎的Pinterest為圖片分享類的社群網站或是有關建築、室內設計和裝飾的Houzz網站,讓數以百萬的民眾以圖像社群網站來尋找產品與靈感。
然而這些受歡迎的圖像網站在搜尋上面臨了一些挑戰,以Houzz網站來說,裡面的圖像就超過7百萬張的龐大數量,如何在這龐大的圖像資料庫中找到使用者需要的資訊,譬如商品外觀很難透過基於文字的搜索來表達、應該甚麼關鍵字來搜尋才精準或檢索的分類項目難以篩選等。其次是許多分享的圖片中,分享者並不一定會特別標註此產品的用途或是可以在哪裡購買等相關資訊,因此如果可以藉由自動化的以圖搜圖功能,找出產品的購資訊,而不用單靠分享者人力一一回答,也能成為加強用戶體驗的方式。再者使用者從購買產品的網站找到喜愛的產品後,如果能提供產品的反向搜尋,找到這些產品該如何使用、裝飾或擺放,也是現代人希望能夠藉由搜尋引擎或圖像網站能獲得的資訊。
GrokStyle以AI視覺搜尋鏈結線上零售購物
美國新創公司GrokStyle成立於2016年,為結合人工智慧以電腦視覺搜尋連結線上零售購物的AI公司,希望藉由AI視覺搜尋技術創造全新的購物體驗。GrokStyle 由Sean Bell與Kavita Bala共同創辦,Kavita Bala為Sean Bell在康乃爾大學的指導教授,他們在2015年美國電腦協會電腦圖形專業組組織的電腦圖形學頂級年度會議SIGGRAPH上發表了深度學習卷積神經網絡視覺相似度模型,此為奠定GrokStyle的核心技術,其後兩人由康乃爾大學育成後出來創立GrokStyle。
GrokStyle在2016年5月參與LDV Vision Summit,贏得企業電腦視覺挑戰賽(Entrepreneurial Computer Vision Challenge, ECVC)獲勝者,得以在參與此電腦視覺高峰會的企業管理者、風險資本家及招聘公司中展示他們的產品與AI技術,也藉此打響了GrokStyle在電腦視覺相似性搜尋技術。2017年2月GrokStyle發表其視覺搜尋技術進展到可以準確地辨識使用者拍攝相片的家具,進而找到使用者想購買的產品網站。在發布其技術後GrokStyle在當年4月獲得了Krishna Bharat等7家投資者共180萬美元的種子融資,8月入選2017年度的「CB Insights AI 100」。2018年5月GrokStyle與全球最大傢具零售業者IKEA合作,將其視覺搜尋功能加入IKEA的Place AR應用程式中。2018年5月GrokStyle從美國國家科學基金會(National Science Foundation)獲得了75萬美元的贈款作為小型企業創新研究(SBIR)。2019年2月Facebook以未公開金額收購GrokStyle,同時延攬該公司的團隊成員加入Facebook,GrokStyle的CEO Sean Bel現今擔任Facebook AI研究團隊產品辨識組的研究科學家與技術經理。
以AI視覺搜尋簡化選購程序
GrokStyle產品為可以識別圖片中的商品對象的應用程式「GrokStyle App」,用戶可以使用該應用程式拍攝傢俱或物品的照或是直接上傳之前拍攝過的圖片後,GrokStyle應用程式基於深度學習技術來學習產品之間的視覺相似性,從而幫助用戶搜尋到想要的商品以及提供品牌及類似產品等相關信息,幫助用戶在線上即可進行家具選購。GrokStyle應用程式提供兩大方向的應用,第一種類型是給特定區域的圖像,找出與這個區域中包含物品最相似的其他物品,可以解決的問題是人們常常會在圖像網站詢問「我很喜歡這張圖片中的檯燈,哪裡可以買到相似的產品?」,GrokStyle便可透過其AI視覺技術搜尋找到資料庫中商品購買資訊;第二種問題是可以解決的問題是「這張椅子可以擺放房間的哪裡?如何在家裡使用它?」GrokStyle應用程式就會提供商品使用方式、居家擺飾或室內設計圖片等。
資料來源:MIC,2021年10月 圖1 GrokStyle應用程式操作情境
GrokStyle一直企圖打入傢俱與室內設計市場,其第一個大型合作夥伴是IKEA,IKEA有一款名為Place AR的擴增實境應用程式,該程式將GrokStyle的點對點搜尋功能(point-and-search)加入Place AR中,用戶可以照下IKEA型錄中的室內擺設圖片後該程式就會出現產品的販售價錢與尺寸等資訊,並且以擴增實境技術讓使用者可以真實模擬傢俱擺放在家中的真實樣貌。
資料來源:MIC,2021年10月 圖2 GrokStyle與IKEA合作的Place AR應用程式
深度學習卷積神經網絡視覺相似度模型
GrokStyle的核心技術為深度學習卷積神經網路視覺相似度模型,該模型使用Siamese Network經由數百萬種產品眾包資料樣本中進行成對圖像深度學習訓練。Siamese網路由兩個對稱的神經網路組成,它們共享相同的權重和體系結構,經由成對學習加速模型訓練。在不同照明狀態、物品之間的遮擋、各種拍照角度都可能影響最終的反饋結果。因此高強度的深度學習需要相當大量的圖片,幫助機器學習判斷不同家居物品。
資料來源:MIC,2021年10月 圖3 深度學習卷積神經網路視覺相似度模型
Facebook借助GrokStyle技術提升視覺搜索體驗
GrokStyle開發視覺搜尋技術並將其商業化,具有廣泛的影響與商業潛力,在許多市場如居家裝飾、室內設計或品牌時尚等領域的圖像網站中,客戶尋求的產品具有獨特的視覺外觀,而這些外觀很難以文字表達搜索。GrokStyle為這些市場開發視覺搜索工具,將產品可能具有不同的背景,尺寸,方向或燈光照明的照片或是照片場景中的雜物可能會影像到產品圖像辨識。GrokStyle的產品分類法以支持廣泛的客戶和產品類型;半自動檢測場景圖像中的產品,以放大到大型照片庫中;完善訓練的模型進行細粒度匹配,以滿足客戶需求。GrokStyle的深度學習卷積神經網路視覺相似度技術大幅提高了圖像搜尋的準確性。
Facebook在2018年來加強在人工智慧及電腦視覺技術的投資力道,從2018年至2020年共收購了9家AI新創公司,對於GrokStyle的收購,Facebook發言人表示「基本的概念與想法是,讓用戶能夠在使用配對技術尋找傢俱或燈飾等物品,從圖像資料庫中找到相似的圖象」。預期GrokStyle的技術將應用在Facebook旗下Marketplace拍賣市集商品銷售平台,讓使用者透過手機拍攝實際物件後,即可快速搜尋相似物品,建立更良好的視覺搜索體驗。
財團法人資訊工業策進會 產業情報研究所(MIC) 張皓甯 產業分析師