分散式自治實踐與研究者，尋找有別於電馭極權與財閥亂鬥的第三條路。喜歡討論，請別客氣與我討論。

利用集体心智创作的机器与艺术家

2021 年 12 月 12 日

当人工智慧跨足艺术创作领域，艺术家将被取代，还是掌握天火？

高中时代很爱一部科幻小说，由星云、雨果、坎伯三大奖得主罗伯特．索耶（Robert J. Sawyer）撰写，叫做《 WWW.苏醒》（www:wake），故事大概是一名聪慧的盲眼女孩自从装上电子眼之后，因为某些bug 见证了网路心灵的诞生，网路心灵因主角的电子眼而有了与世界互动的机会...。

时间快转十年来到此时此刻，OpenAI 与Google 在这几年间推出了革命性的人工智慧工具，包括AlphaGo（自动博弈）、GPT-3（语言生成）、AlphaFold（蛋白质预测），每一个都让我觉得世界在光速进化。

今年一月，OpenAI 将魔爪伸向了图像生成领域，Dall-E（达利）系统可以藉由输入语句做出变幻无穷的图片（Text-to-Image），其中的核心灵魂— 文字图片配对引擎CLIP （Contractive Language-Image Pre-Training）是开源软体，这几个月图像演算界像是著了魔般突飞猛进，演化出看次无穷无尽的新玩法。

就在上周Pixray 网站出现，让一般人可以输入语句，换取由AI 工具生成的魔幻图片，甚至可以一键铸造NFT。两周前我分享这个应用的文章，竟然获得八百多个分享，让我在讶异之余，深深觉得新的时代已经到来。

不知不觉中，集体共识的时代已经来临，所有人都中了网际网路的瞳术。

我把Pixray 传给艺术家朋友张明曜看，他仿佛着了魔，没日没夜的算图，藉由调整字句与骰图，让图片展现其意图，目前应该已算超过一万张图。踩在其他图片的尸体上，目前有九张图诞生，构成了系列作《创世纪Genesis》，这几天瞬间热销一空。

今天不讲NFT 销售策略或是图像美学，纯讨论什么是从网际网路诞生的集体共识；与张明曜的行为，是否是一种集体心智共同创作。

其实AI 艺术已不是新鲜事，AI 艺术先驱Mario Klingemann 于2018 年获得〈流明奖〉（Lumen Prize），其作品〈屠夫之子〉便是使用GAN（Generative Adversarial Network, 生成式对抗网络）训练制作；之前提到由Memo Akten 创作的分散式意识（章鱼），也是以GAN 进行创作。台湾艺术家赖宗昀的〈Ancestor〉应也是类似的创作方式。

Imposture Series - The Butcher's Son, 2017

“How will we be able to make a living if machines take over our creative jobs?”
- Mario Klingemann

就在十月底，Mario Klingemann 打造了一名AI 机器艺术家Botto ，与其背后支撑他的代币经济$Botto，其背后的创作原理与文前提到的Pixrary 相同，这部机器会定时接受社群提出的文字语句进行创作，其作品的交易量已经超过三千三百万台币。整个策略与行动发人省思，作品也很美。

〈张明曜x Pixray〉与〈Botto〉这两个案例让我久久不能自已，我感到空前的震撼与深刻，有一种伸手碰触到繁星的感觉。

我仔细穷究这个震撼源自何处，发现其原因不是AI 会创作、会自动演化；而是因为这两台机器背后使用的核心灵魂— 演算法CLIP。

这个演算法的粮食，来自全人类的网路足迹。

忝为一名就读AI 相关研究所的菜鸟硕士生，我对程式码与方法论没那么熟稔，过程中若有疏漏请多指正。

先讲结论，CLIP 在诞生时不是经过事先准备好的资料集训练的，而是使用网路上能找到的一切具有文字标签的图片来训练，因此我们很难去预判CLIP 到底学到了什么。使用CLIP 时，不需要再次准备图片资料集去做训练，这个方式称为Zero-shot learning。

网路上一切有文字解释之图片，是谁的解释？解释权在谁手上？

不是科学家的解释、不是工读生的解释，是「我们」的解释。

更进一步来说，是自古以来网路使用者的解释。

我们想到什么，记下什么，人工智慧就会去消化它，学习它，成为一部没有灵魂，但有渊博知识的艺术家。人类藉由念出一段咒语来召唤人工智慧，他生出一件作品给你，请问这件作品是由谁创作的呢？念咒者、人工智慧、还是全人类？

打个比方，当你在Pixray 写下艾菲尔铁塔（Eiffel Tower）时，机器吐出来的图片是一个铁制尖塔，不是从艾菲尔铁塔底下往上看的样子，也不是站在塔顶往外看的样子，为什么呢？因为全人类都一致认为，艾菲尔铁塔便应该一幢从远方凝视的尖塔。

艾菲尔铁塔的符号非常明确，大家的心像大致上相同。

这就是集体心智，AI 演算法夺去了这个心智，展现给大家看。

那张明曜与$Botto 持有者做了什么？他们成为应用新工具的创作者。

Prompt Engineering （中文不确定怎么翻译，我先称之为引导工程）是这种创作方式的名称，藉由不同词汇的堆叠，仿佛画笔不断将颜料堆叠在画布上。

这可不是一件容易的事，颜料有色调、运笔有技法、构图有各种消失法（拿出我国中美术班的知识...），Prompt Engineering 必须逆向工程出AI 吐哺集体心智诞生的新词汇，名词、形容词、动词、介系词、方向导引等等。

但同一个句子，机器会骰出不同的图片，因为训练集与演算法特性使然。

多么诗意的创作过程呀。

因为人工智慧进步，今天的人类已可以使用诗句来进行图像创作。

这是我感到震撼的原因。

这是全新的画布与画笔，折射出我们内心习以为成的事物。

（文章到此已经结束，如果你对原理有兴趣，可以继续往下看。）

张明曜作品Genesis: Creation of Adam（创世纪：创造亚当）（2021）黄豆泥收藏

摘录张明曜作品叙述

「藉由人工智能生成图像的技术日益成熟，生成艺术似乎只剩下两种状况：藉由编程来影响机器的运算逻辑，或是将创作的意识全权交付给机器。无论何者，图像的创造性似乎已不再由人所掌握。那么，透过与机器不断协商的方式，取回一部分的创造性，是否能称得上是生成艺术的文艺复兴呢？」

「《Genesis》这系列作品，使用Pixray的图象生成网站，不停修正字串与机器进行协商，且不使用任何指令与语法，来生成符合期望的图象。作品名除了指向生成艺术外，亦连结至米开朗基罗的《创世纪》，来谈论与机器携手之创造可能性，思考在放弃编程却不舍弃图象创作意识的状况下的「人本」精神。」

VQGAN+CLIP 演算法原理

回过头来讲Pixray 的演算法组合，工程师Dribnet 融合了Perception Engines、VQGAN+CLIP、Sampling Generative Networks，打造Pixray 创作平台，大家有兴趣可以上去玩玩看，简单又好玩。今天只稍微解释什么是VQGAN+CLIP。

上文提到CLIP 于今年一月由OpenAI 提出，更新的融合技术CLIP guided GAN imagery 于今年四月由Ryan Murdoch 与Katherine Crowson 提出。十一月时已经可以看到应用其技术的GUI （图像式介面，就可你不用开终端机就能玩的服务）民间使用平台，实在令我讶异科技进步之神速，果然开源精神是一条最有效率的道路。

简单来讲， VQGAN+CLIP 是一个文字转图片的工具（text-to-image），只要设定文本导引（Text prompt），它就会给你图片。这个工具已经替AI 创作工具（Creative AI）创造新浪潮。

VQGAN 与CLIP 分别是两个神经网路架构， VQGAN 全名为Vector Quantized Generative Adversarial Network（量子化向量生成式对抗网络），使用卷积神经网络加上知名的文字演算法（Transformer, BERT & GPT的爸爸），白话一点来讲它读取文字，产出图片。 CLIP 全名为Contrastive Language-Image Pre-Training （预先训练对照式语言图形演算法），它判断哪一张图片最匹配文字叙述。 OpenAI 同一个时间推出的Dall-E 达利系统，是采用数亿张已知的图片资料库来训练，而CLIP 本身采用未知的网路图片进行训练。

创作者提出文字，VQGAN 产出图片，CLIP 告诉VQGAN 图片对不对，对错的准则由网路全人类的结晶决定，以此方式反覆迭代到创作者说停为止。

我认为这个工具将产生巨大的创作能量，现在只是一个开头而已。

尽我所能提出解释，以下索引欢迎参考。