動手玩玩Google Cloud Vision API

文章推薦指數: 80 %
投票人數:10人

可簡單分成臉部辨識、標籤偵測、Web、文本辨識等等,下面將會就各個功能分邊說明。

不過,就算不真正設置API 到自己的project 中,網頁版就值得大家試試看 ... 【動手玩系列#1】GoogleCloudVisionAPI#GCP手把手文/Allen|編輯/Quen 我們之前曾經提過GoogleCloudVisionAPI(雲視覺API)在YouTube影片、空拍機影片的應用,透過此API能從圖片之中擷取內容的特徵,例如照片中出現的物體、是否有人臉等等。

其實,CloudVisionAPI可說是用來「理解」圖片內容的工具,就如同語音方面使用CloudNaturalLanguageAPI來「理解」字句中的意義一樣。

我們今天就來看看CloudVisionAPI能「看懂」哪些特徵吧! 動手玩! 只要前往GoogleCloudVisionAPI的官方網頁,就能無壓力試玩大多數的API功能!不僅不用錢,連網頁、API都不需要先架設!icon/enlarge將檔案拖放進去就可以開始試用CloudVisionAPI強大的解析功能。

檔案拖入後,還可以簡單的在上方選擇想偵測的特徵:icon/enlarge可簡單分成臉部辨識、標籤偵測、Web、文本辨識等等,下面將會就各個功能分邊說明。

不過,就算不真正設置API到自己的project中,網頁版就值得大家試試看他的威力了! 標籤偵測(LABEL_DETECTION) 在API中要求返回LABEL_DETECTION這個特徵時,API會回傳一組或多組回應,每組3個值:mid、description以及score。

mid:Machine-generatedidentifier。

如果API偵測出的物件或特徵是GoogleKnowledgeGraph裡面有的資料,那麼就會秀出該物件在KnowledgeGraph知識圖譜中的位置。

(前情提要:KnowledgeGraph是將世間萬物建立關係網路的龐大資料庫) description:這就是對該物件的文字敘述,例如:摩天輪。

score:顧名思義,就是CloudVisionAPI對於這個猜測的信心分數囉!icon/enlarge同一張圖片內可能同時被偵測到許多物件或特徵,此時回傳的值會像是這樣: “labelAnnotations”:[{“mid”:“/m/017m8l”,“description”:“waterway”,“score”:0.9609974},{“mid”:“/m/0838f”,“description”:“water”,“score”:0.9603445},{“mid”:“/m/03ktm1”,“description”:“bodyofwater”,“score”:0.93432164},{“mid”:“/m/08rrcl”,“description”:“watertransportation”,“score”:0.9240506},{“mid”:“/m/019jd”,“description”:“boat”,“score”:0.9176671},……………………] 這個案例就是上面這張圖的回傳結果,API認為「水路運輸」是圖片中的主角,因此給了最高分;下面說的「大面積的水」、「船」、「划船」等特徵也都會列出來。

利用這個特徵值,可以輕易找出照片內容關鍵字,對於大量照片的分類、關鍵資訊的抽取都很有幫助。

臉部偵測(FACE_DETECTION) 可以偵測輸入圖片中的多個臉孔,並可指出臉部特徵。

此API會回傳一組非常龐大的特徵集faceAnnotations,包含人臉的位置、是否高興、是否生氣、是否有戴眼鏡、是否模糊等等,甚至包含左眼在哪裡、眼睛上緣、下緣的位置等極細微的特徵都能透過此API獲取。

icon/enlarge圖中可看出除了偵測人臉位置外,API還會回傳人臉的仰角、傾角、可能的情緒狀態等資訊。

icon/enlarge煽情露骨內容偵測(SAFE_SEARCH_DETECTION) 大家一定用過Google搜尋吧?Google會自動擋掉成人、血腥等內容,靠的就是一樣的技術。

使用此功能可偵測4種內容:adult、spoof、medical、violence,幫助使用者過濾不適合顯示出來的圖片。

標誌偵測(LOGO_DETECTION) 此功能可以偵測出圖片中是否含有著名商標。

這項偵測同標籤偵測,一樣會有每組3個值回傳:mid、description以及score。

像是筆者在臉部偵測放的這張圖,其中的UNIQLO就被認出來了:icon/enlarge地標偵測(LANDMARK_DETECTION) 顧名思義,此功能可偵測圖片中著名的自然景觀或人工造景、建築等地標級物件。

除了常規的mid、description、score 以外,回傳值還會包含該地標在圖片中的位置(類似臉部偵測的方框),以及此地標的經緯度位置資訊locations。

筆者嘗試了自己拍的台北101與紐約中央車站都被正確的辨識出來了。

icon/enlargeOCR文字辨識(DOCUMENT_TEXT_DETECTION) 這也是很強大的功能,能圖片中出現的文字變成文字檔,省去輸入謄稿的時間。

icon/enlargeGoogleCloudVisionAPI是非常強大的利器,由於多年來Google做搜尋引擎的經驗與技術累積,CloudVisionAPI可說是「看盡」世間萬物,又透過各種MachineLearning的training,讓辨識率大幅提高,甚至能偵測到很多人類沒有察覺的特徵細節。

今天就打開網頁玩玩看吧! 參考資料來源 *GoogleCloudVisionAPIhttps://cloud.google.com/vision/ *GoogleCloudVisionAPIDocumentationhttps://cloud.google.com/vision/docs/ *FilteringinappropriatecontentwithCloudVisionAPIhttps://cloud.google.com/blog/big-data/2016/08/filtering-inappropriate-content-with-the-cloud-vision-api相關文章【動手玩系列#2】TensorFlow帶你無師自通成為植物學家[手把手教學]用Container安裝Elasticsearch 實戰篇【GCP手把手教學】VM日常維運篇ScheduleVMtostartandstop【GCP手把手教學】VM日常維運篇PatchUpdate訂閱CloudMile電子報所有CloudMile最新消息、產品動態、活動資訊和特別優惠,立即掌握。

名字 *姓氏 *公司 *電子信箱 *我已閱讀並同意CloudMile 隱私權政策 與 個資同意書.送出聯絡我們沒問題,我們可以幫您!只要撥打以下電話,即可聯繫銷售了解更多資訊。

新加坡:+65-6993-2383馬來西亞:+603-2280-6902香港:+852-3481-0068台灣:+886-2-2757-6077撥打電話聯絡我們



請為這篇文章評分?