AI藝術的本事－－白話解碼 Diffusion Model

Mar 20, 2024

近年來，隨著人工智慧（AI）技術的迅猛發展，我們見證了它在多個領域取得的革命性進展，尤其是在圖像生成這一領域。從早期的簡單幾何圖形到現在能夠生成具有各種藝術風格和栩栩如生寫實感的圖像，今日的AI已經達到了令人難以置信的創作水準。在這些圖像生成技術中，「Diffusion Model」（擴散模型）蔚為主流，其獨特的工作機制和生成效果，成為研究和應用的熱門領域，許多為人所熟知的工具如：Midjourney、DALL-E 3、Stable Diffusion等，都是以Diffusion Model為基礎的應用。

Diffusion Model的核心思想源自物理學的擴散過程，類似於如何將混合在一起的不同物質分離。在圖像生成的脈絡中，這意味著將一張含有大量隨機雜訊的圖像，逐步恢復出清晰的圖像。這一過程就像是將一張被污漬覆蓋的照片，通過逐步清理，恢復到原本的乾淨清晰的樣貌。這種方法的優勢在於它能夠生成極具細節和質感的圖像，同時保持高度的創造性和可控性。本文將從基礎概念開始逐步深入探討Diffusion Model的工作原理，以及它如何被應用於生成令人驚豔的視覺內容。

什麼是Diffusion Model？

讓我們先來想像一下，如果你有一張很漂亮的風景照，但不小心把它弄髒了，上面沾滿了污漬和灰塵。你會怎麼做？一種直覺的做法是，拿一塊布沾了清潔劑，用力去擦，希望一次性去除所有污漬。但這可能會損壞照片，而且效果也不理想。

另一種更聰明的做法是，分階段逐步清理。先用一張軟布沾少量清潔劑，輕輕擦拭表面，去除一部分污漬。然後再換一張更細緻的布，沾專門的清潔液，仔細清理細節。最後用一塊柔軟的麂皮布，輕輕擦拭表面，去除最後的灰塵。這樣一步步來，每次只去除一點點污漬，最終就能將照片恢復到原來的樣子，既安全又有效。

Diffusion Model正是基於這種「逐步清理」的思想。它將圖像生成拆解為兩個互逆的過程：正向的「添加雜訊」過程和反向的「去除雜訊」過程。在添加雜訊階段，我們從一張無雜訊的乾淨圖像出發，逐步加入隨機的高斯雜訊——這種雜訊在統計學中被認為是最能模擬自然雜訊的分布——直到圖像被雜訊完全覆蓋。這一過程類似於我們在照片上故意添加污漬，每個污點都隨機出現，逐漸模糊了原本的風景。

而在去除雜訊過程中，我們從這張看似髒亂的圖像出發，利用一個精心設計的神經網路，逐步去除雜訊。這個神經網路通過深度學習的技術，學會了如何識別和分離出圖像中的雜訊和有用訊息。在每個去除雜訊的階段，網路都會細心地恢復圖像的一部分，從模糊的輪廓到細節的紋理，最終還原出清晰、逼真的圖像。

厲害的神經網路

在Diffusion Model中，有一個由深度學習驅動的神經網路，它負責執行去除雜訊的複雜任務。這個網路，類似於人腦中的神經元，由多層的數學函數組成，每個函數都能學習處理特定的訊息。當一張帶有雜訊的圖像輸入到這個網路時，它會經過一系列精巧設計的層，每個層都逐步提取和強化圖像中的重要特徵，同時抑制和去除雜訊。最終，網路輸出的是一張更加清晰、雜訊更少的圖像。網路內部有大量的可學習參數，這些參數決定了如何去除雜訊的策略。而網路的訓練目標，就是讓輸出的圖像盡可能接近真正乾淨的圖像。

讓我們再回到清理照片的例子。假設你請了一個清潔專家來幫你恢復那張髒照片。這個專家有多年的清潔經驗，知道對付不同種類污漬的最佳方法。你把那張髒照片交給專家，專家仔細觀察照片的狀況，然後決定第一步該怎麼清理。也許是先用軟布去除表面的灰塵，或者先用清潔劑處理某個頑固的污漬。總之，專家會根據照片的具體情況，制定一套最優的清潔策略。清理完第一步後，專家會將照片還給你檢查。如果你覺得還不夠乾淨，就再次將照片交給專家，請專家進行下一步清理。就這樣反復多次，每次清理一點點，直到你對照片的品質滿意為止。

在Diffusion Model中，神經網路扮演的就是這個清潔專家的角色。它接收一張帶雜訊的圖像，根據自己的「清潔策略」去除一部分雜訊，然後輸出一張更乾淨的圖像。這個「清潔策略」就蘊含在網路的參數中，而這些參數是通過訓練來學習的。換言之，網路在處理帶雜訊圖像時，會進行細緻的分析，而不是隨意的去除雜訊，是通過深度學習的算法識別出什麼是圖像的特徵，以及哪些是不需要的雜訊。然後，逐步調整自己的策略，從大體的輪廓到細微的纹理，一點一滴地揭示出圖像的原始面貌。

訓練的過程可以看作是向清潔專家「請教」如何去除雜訊。我們準備大量的髒照片（帶雜訊的圖像）和對應的乾淨照片（原始圖像），讓專家（網路）去嘗試清理。每次清理後，我們將專家的清理結果（網路輸出）與真正的乾淨照片進行比較，如果還有差距，就告訴專家哪裡清理得不夠好，請專家改進。這是一個迭代的過程，專家（網路）在每次失敗後都會學到新的東西，並在下一次的嘗試中做得更好。通過不斷的練習和改進，專家（網路）就能掌握去除各種雜訊的最佳策略。

生成圖像的奧秘

訓練完成後，我們就得到一個功能強大的神經網路，它可以將任意一張帶雜訊的圖像逐步還原為乾淨的圖像。但Diffusion Model的最終目標，是要生成全新的、從未見過的圖像。這又是如何實現的呢？秘訣就在於，我們可以從隨機雜訊開始，然後用神經網路一步步「清理」，最終得到一張乾淨的圖像。這個過程是從一堆雜訊開始，經過神經網路的層層雕琢，最終呈現出一張栩栩如生的圖像。

讓我們再次回到照片清理的類比。現在，我們有了一個訓練有素的清潔專家（神經網路），但手上沒有任何需要恢復的髒照片。於是，我們決定自己「製造」一些髒照片。

首先，我們準備一張全是隨機黑白點的雜訊圖像，就像一張被髒亂顏料潑灑過的畫布。然後，我們請清潔專家（網路）對這張「畫布」進行清理。第一步清理後，「畫布」上的一些雜訊被去除，隱約出現了一些模糊的結構。我們將這個結果再次交給清潔專家，請他進行下一步清理。

就這樣，專家一步步清理，「畫布」上的圖像也逐漸清晰。也許先出現了一些大的形狀和輪廓，然後是一些細節和紋理，最後是一些微小的調整。經過多次清理，原本雜亂無章的雜訊「畫布」，就神奇地變成了一張逼真的圖像，也許是一張風景照，或是一張人像。

這就是Diffusion Model生成圖像的奧秘。它先製造一張純雜訊圖像，然後用訓練好的神經網路，一步步將雜訊去除，最終得到一張乾淨、逼真的圖像。這個過程就像是一個雕塑家，從一塊毫無特徵的石頭開始，一點點雕琢，最終塑造出一尊栩栩如生的雕像。

結語

Diffusion Model是近年來圖像生成領域的一個重要進展。它通過模仿物理中的擴散過程，讓AI學會了如何逐步去除雜訊，從而生成高品質的圖像。這種逐步去除雜訊的思想，不僅使得圖像生成的過程更加穩定和可控，也為進一步提高生成品質提供了新的可能。

同時，Diffusion Model也為我們理解AI的工作方式提供了一個新的視角。它告訴我們，AI並不是簡單地「想像」出一張圖像，而是通過一個細緻入微的去除雜訊過程，一點點雕琢出最終的結果。而這種「由混沌到清澈」的過程，也許更接近人類創作的本質。

參考資料：

Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33, 6840-6851.

論文下載：arXiv:2006.11239

附註：本文利用Claude 3以及Microsoft Copilot進行部分內容發想與編修

CC BY-NC-ND 4.0