豆泥
豆泥

分散式自治實踐與研究者,尋找有別於電馭極權與財閥亂鬥的第三條路。喜歡討論,請別客氣與我討論。

利用集体心智创作的机器与艺术家

当人工智慧跨足艺术创作领域,艺术家将被取代,还是掌握天火?

高中时代很爱一部科幻小说,由星云、雨果、坎伯三大奖得主罗伯特.索耶(Robert J. Sawyer)撰写,叫做《 WWW.苏醒》(www:wake),故事大概是一名聪慧的盲眼女孩自从装上电子眼之后,因为某些bug 见证了网路心灵的诞生,网路心灵因主角的电子眼而有了与世界互动的机会...。

时间快转十年来到此时此刻,OpenAI 与Google 在这几年间推出了革命性的人工智慧工具,包括AlphaGo(自动博弈)、GPT-3(语言生成)、AlphaFold(蛋白质预测),每一个都让我觉得世界在光速进化。


今年一月,OpenAI 将魔爪伸向了图像生成领域,Dall-E(达利)系统可以藉由输入语句做出变幻无穷的图片(Text-to-Image),其中的核心灵魂— 文字图片配对引擎CLIP (Contractive Language-Image Pre-Training)是开源软体,这几个月图像演算界像是著了魔般突飞猛进,演化出看次无穷无尽的新玩法。

就在上周Pixray 网站出现,让一般人可以输入语句,换取由AI 工具生成的魔幻图片,甚至可以一键铸造NFT。两周前我分享这个应用的文章,竟然获得八百多个分享,让我在讶异之余,深深觉得新的时代已经到来。

不知不觉中,集体共识的时代已经来临,所有人都中了网际网路的瞳术。


我把Pixray 传给艺术家朋友张明曜看,他仿佛着了魔,没日没夜的算图,藉由调整字句与骰图,让图片展现其意图,目前应该已算超过一万张图。踩在其他图片的尸体上,目前有九张图诞生,构成了系列作《创世纪Genesis》,这几天瞬间热销一空。

创世纪:创造夏娃(张明曜2021)

今天不讲NFT 销售策略或是图像美学,纯讨论什么是从网际网路诞生的集体共识;与张明曜的行为,是否是一种集体心智共同创作。


其实AI 艺术已不是新鲜事,AI 艺术先驱Mario Klingemann 于2018 年获得〈流明奖〉(Lumen Prize),其作品〈屠夫之子〉便是使用GAN(Generative Adversarial Network, 生成式对抗网络)训练制作;之前提到由Memo Akten 创作的分散式意识(章鱼),也是以GAN 进行创作。台湾艺术家赖宗昀的〈Ancestor〉应也是类似的创作方式。

Imposture Series - The Butcher's Son, 2017
“How will we be able to make a living if machines take over our creative jobs?”
- Mario Klingemann

就在十月底,Mario Klingemann 打造了一名AI 机器艺术家Botto ,与其背后支撑他的代币经济$Botto,其背后的创作原理与文前提到的Pixrary 相同,这部机器会定时接受社群提出的文字语句进行创作,其作品的交易量已经超过三千三百万台币。整个策略与行动发人省思,作品也很美。

Botto.com

〈张明曜x Pixray〉与〈Botto〉这两个案例让我久久不能自已,我感到空前的震撼与深刻,有一种伸手碰触到繁星的感觉。

我仔细穷究这个震撼源自何处,发现其原因不是AI 会创作、会自动演化;而是因为这两台机器背后使用的核心灵魂— 演算法CLIP。

openAI.com

这个演算法的粮食,来自全人类的网路足迹。

忝为一名就读AI 相关研究所的菜鸟硕士生,我对程式码与方法论没那么熟稔,过程中若有疏漏请多指正。

先讲结论,CLIP 在诞生时不是经过事先准备好的资料集训练的,而是使用网路上能找到的一切具有文字标签的图片来训练,因此我们很难去预判CLIP 到底学到了什么。使用CLIP 时,不需要再次准备图片资料集去做训练,这个方式称为Zero-shot learning。


网路上一切有文字解释之图片,是谁的解释?解释权在谁手上?

不是科学家的解释、不是工读生的解释,是「我们」的解释。

更进一步来说,是自古以来网路使用者的解释。

我们想到什么,记下什么,人工智慧就会去消化它,学习它,成为一部没有灵魂,但有渊博知识的艺术家。人类藉由念出一段咒语来召唤人工智慧,他生出一件作品给你,请问这件作品是由谁创作的呢?念咒者、人工智慧、还是全人类?

打个比方,当你在Pixray 写下艾菲尔铁塔(Eiffel Tower)时,机器吐出来的图片是一个铁制尖塔,不是从艾菲尔铁塔底下往上看的样子,也不是站在塔顶往外看的样子,为什么呢?因为全人类都一致认为,艾菲尔铁塔便应该一幢从远方凝视的尖塔。

艾菲尔铁塔的符号非常明确,大家的心像大致上相同。

这就是集体心智,AI 演算法夺去了这个心智,展现给大家看。


那张明曜与$Botto 持有者做了什么?他们成为应用新工具的创作者。

Prompt Engineering (中文不确定怎么翻译,我先称之为引导工程)是这种创作方式的名称,藉由不同词汇的堆叠,仿佛画笔不断将颜料堆叠在画布上。

这可不是一件容易的事,颜料有色调、运笔有技法、构图有各种消失法(拿出我国中美术班的知识...),Prompt Engineering 必须逆向工程出AI 吐哺集体心智诞生的新词汇,名词、形容词、动词、介系词、方向导引等等。

但同一个句子,机器会骰出不同的图片,因为训练集与演算法特性使然。

多么诗意的创作过程呀。


因为人工智慧进步,今天的人类已可以使用诗句来进行图像创作。

这是我感到震撼的原因。

这是全新的画布与画笔,折射出我们内心习以为成的事物。

(文章到此已经结束,如果你对原理有兴趣,可以继续往下看。)


张明曜作品Genesis: Creation of Adam(创世纪:创造亚当)(2021)黄豆泥收藏

摘录张明曜作品叙述

「藉由人工智能生成图像的技术日益成熟,生成艺术似乎只剩下两种状况:藉由编程来影响机器的运算逻辑,或是将创作的意识全权交付给机器。无论何者,图像的创造性似乎已不再由人所掌握。那么,透过与机器不断协商的方式,取回一部分的创造性,是否能称得上是生成艺术的文艺复兴呢?」

「《Genesis》这系列作品,使用Pixray的图象生成网站,不停修正字串与机器进行协商,且不使用任何指令与语法,来生成符合期望的图象。作品名除了指向生成艺术外,亦连结至米开朗基罗的《创世纪》,来谈论与机器携手之创造可能性,思考在放弃编程却不舍弃图象创作意识的状况下的「人本」精神。 」


VQGAN+CLIP 演算法原理

回过头来讲Pixray 的演算法组合,工程师Dribnet 融合了Perception Engines、VQGAN+CLIP、Sampling Generative Networks,打造Pixray 创作平台,大家有兴趣可以上去玩玩看,简单又好玩。今天只稍微解释什么是VQGAN+CLIP。

上文提到CLIP 于今年一月由OpenAI 提出, 更新的融合技术CLIP guided GAN imagery 于今年四月由Ryan Murdoch 与Katherine Crowson 提出。十一月时已经可以看到应用其技术的GUI (图像式介面,就可你不用开终端机就能玩的服务)民间使用平台,实在令我讶异科技进步之神速,果然开源精神是一条最有效率的道路。

简单来讲, VQGAN+CLIP 是一个文字转图片的工具(text-to-image),只要设定文本导引(Text prompt),它就会给你图片。这个工具已经替AI 创作工具(Creative AI)创造新浪潮。

VQGAN 与CLIP 分别是两个神经网路架构, VQGAN 全名为Vector Quantized Generative Adversarial Network(量子化向量生成式对抗网络),使用卷积神经网络加上知名的文字演算法(Transformer, BERT & GPT的爸爸),白话一点来讲它读取文字,产出图片。 CLIP 全名为Contrastive Language-Image Pre-Training (预先训练对照式语言图形演算法),它判断哪一张图片最匹配文字叙述。 OpenAI 同一个时间推出的Dall-E 达利系统,是采用数亿张已知的图片资料库来训练,而CLIP 本身采用未知的网路图片进行训练。

创作者提出文字,VQGAN 产出图片,CLIP 告诉VQGAN 图片对不对,对错的准则由网路全人类的结晶决定,以此方式反覆迭代到创作者说停为止。

我认为这个工具将产生巨大的创作能量,现在只是一个开头而已。


尽我所能提出解释,以下索引欢迎参考。

  1. Pixray 创作平台
  2. 张明曜作品
  3. Mario Klingemann's Botto Project
  4. Botto 的技术文件
  5. OpenAI's CLIP
  6. CLIP 中文介绍from Infuse AI
  7. VQGAN+CLIP — How does it work? by Alexa Steinbrück ㄇㄛ
CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…
加载中…

发布评论