Meta 最新黑科技:甚麼是 Segment Anything Model(SAM)及其影響?
本文原刊於鏈閃
無情工商PART1:
讀Bar 共學社群建構中,想與我一起討論更多國際新聞與書籍嗎?歡迎加入我的共學社群,我們會每周固定舉辦讀書會(新一期將於3月20開始,書籍是顧燕翎編的《女性主義理論與流變》),不定期舉辦學習分享會!
總而言之,如果你喜歡讀書、喜歡思考、喜歡學習,那麼就歡迎你的加入!
無情工商PART2:
Meta 最新黑科技:甚麼是 Segment Anything Model(SAM)及其影響?
甚麼是 Segment Anything Model (SAM)?
SAM 是 Meta 最新推出的人工智慧模型,它可以用不同類型的提示詞(prompt)來指定圖片中要分割出的物件。
使用者只須用單一點擊即可以產生高品質的遮罩(mask)。SAM 的優勢是它可以在沒有額外訓練的情況下,對不熟悉的物件和圖片進行零樣本(zero-shot)的分割,並且可以處理模糊或不清楚的提示詞。
SAM 為人振奮的特色:
● 簡單分割複雜的畫面。
● 若不知確定要分割那些畫面時,可以產生多個有效的遮罩(mask)。
● 可以為圖像中所有存在的對象自動識別,並自動生成遮罩。
● 經過預先計算圖像嵌入後,SAM 可以立即為任何提示生成分割遮罩,實現與模型的即時互動。
● 可將 2D 模型分割出並製作成 3D 模型。
SAM 組合性和應用潛力
SAM 是一個具有創新性和通用性的人工智慧模型,可以通過不同類型的提示詞來分割圖片中的任何物件。SAM 的設計使得它可以作為一個組件,被嵌入到其他系統中,以外掛的方式使用。這種組合性讓 SAM 能夠適應各種未知的任務。以下是一些 SAM 可能產生積極影響的領域:
- 在 AR/VR 領域,SAM 可以幫助用戶在虛擬環境中選擇和操作物件,由於其人工智慧之特性,未來只需要視線所及之處,便可以「選擇」(即分割)出特定的物件。此外,亦可以將物件從一個場景轉移到另一個場景,甚至作記錄的工作等。
- 在內容創作領域,SAM 可以幫助創作者在圖片或影片中進行高品質的分割和編輯,例如用文字或語音來分割物件,或者將物件提升到 3D 並進行拼貼或合成。
- 在科學研究領域,SAM 可以幫助研究人員在複雜的圖像數據中進行分析和探索,例如用自然語言來分割生物或天文圖像中的物件,或者將分割結果作為其他人工智慧系統的輸入,用 AI 乘 AI 來達到 1+1 大於 2 的願景。
SAM 的出現為電腦視覺領域帶來了新的可能性,並且有望推動更高級別的語義理解與像素級別的圖像理解之間更緊密的耦合。這種耦合將有助於解鎖更強大的人工智能系統,並且在多個領域產生深遠的影響。
SAM 訓練與資料集
SAM 的數據庫與研究相關資訊都是開源的,同樣也可以在 GitHub 上免費訪問,更提供了交互式演示的 Web UI。換言之,現在只要讀者想要試玩,即可以從 GitHub 上下載資源包進行試用!
SAM 的訓練過程是利用的是模型迴圈 「資料引擎」(data engine)來收集大量的圖片和遮罩資料,並且不斷地更新模型和資料集。資料引擎分為三個階段:
1. 輔助手動(assisted-manual),研究人員使用 SAM 來互動地註解圖片中的物件,並且提供提示給模型。
2. 半自動(semi-automatic),此階段 SAM 可以自動地為部分物件產生遮罩,而研究人員則專注於註解剩餘的物件,以增加遮罩的多樣性。
3. 全自動(fully-automatic),在全自動階段,SAM 可以藉由人類標註的前景點的規則網格,自動生成遮罩,每張圖片平均生成約 100 個高質量的遮罩。在這種方式下,SAM 通過自動生成遮罩,大幅度減輕了標註人員的工作,提高了遮罩的生成效率。
最終的資料集則包含了超過 10 億個分割掩碼,這些掩碼是從約 1100 萬張經授權且保護隱私的圖片中收集來的。
結論──像禪師學習
雖說 SAM 並不像 chat GPT 的推出時那般受到萬人追捧,但作為一個相對底層的人工智慧模組,其高度的可組合性確確實實讓其潛能可以無限放大。光是 AR與VR上的應用便足以大大的改進現階段的技術阻礙。
此外,如果說 Chat GPT 是讓 AI 能夠聽得懂人類講話,並嘗試理解人類的語言,做出回應,那麼 SAM 的出現便是讓 AI 能夠「讀懂」人類的圖像,能夠讀懂人類的「世界」。語言的辨別本身亦是從「分割」開始,那麼當圖像亦可以被 AI 分割之後,難以想像未來的 AI 時代會如何發展。試想這樣一個未來,你將 SAM 與 Chat gpt 一同使用,你將得以與 AI 一同欣賞各式各樣的影劇與圖像藝術,甚至 AI 可以教你如何畫出一幅藝術畫作(是邊畫邊教,並非攏統的教學)。
總結而論, 寧可說 AI 是一種工具,不妨把它看作是一個睿智且極富涵養的智者,甚至像極了佛教中的禪師,你能夠從他身上學到甚麼,端看你本身如何「向他學習」,當你只有半瓶水的程度,理所當然只能學到半瓶水的程度。所以與其懼怕 AI 會取代人類,或者懼怕 AI 終究是一種工具,不如將其視作是一位禪師吧!
參考資料:
Segment Anything Model (SAM) explained | Encord