腐宅
精华
|
战斗力 鹅
|
回帖 0
注册时间 2024-12-3
|
特德·姜 | 为什么人工智能将不会创造艺术?
海螺Caracoles
2025年02月21日 08:59 广东 18人
以下文章来源于北京媒介小组 ,作者北京媒介小组

北京媒介小组.
Beijing Media Group, for Advanced Studies on Media


要创作一部小说或一幅画,艺术家所做的选择与人工智能根本不同。
作者:特德·姜(Ted Chiang)
孙佳贺译
原文于2024年8月31日刊载于
THE NEW YORKER
特德·姜 Ted Chiang
1953年,罗尔德·达尔(Roald Dahl)发表了短篇小说《伟大的自动语法生成器》(The Great Automatic Grammatizator),讲述了一位电气工程师暗自渴望成为作家的故事。某天,在建成了世界上最快的计算机后,这位工程师意识到“英语语法受到几乎像数学一样严谨的规则的支配”。他发明了一台小说写作机器,这台机器可以在三十秒内生成一篇五千字的短篇小说、在十五分钟内生成一部长篇小说,操作者需要操纵手柄和脚踏板来调节幽默和悲伤的程度,就像开车或演奏管风琴一样。结果,这些小说大受欢迎,一年之内,英语出版的小说中有一半都出自这位工程师的发明。
The Great Automatic Grammatizator
艺术有什么特别之处,能让它不像达尔想象的那样,通过按下一个按钮就能创造吗?目前,像ChatGPT这样的大语言模型生成的小说还很糟糕,但我们可以想象未来这些程序可能会有所改进。它们能变得有多好?它们能否像计算器在加减法上比人类更胜一筹那样,在写小说、绘画或制作电影方面比人类更出色?
众所周知,艺术的定义、好艺术与坏艺术之间的区别难以界定。但让我提出一个概括性的观点:艺术是众多选择的结果。如果我们以小说创作为例可能最容易解释这一点。当你写小说时,无论你有没有意识到,你几乎在你输入的每一个词上做选择。简单来说,我们可以想象一篇一万字的短篇小说需要大约一万个选择。但当你给生成式人工智能程序提示词时,你做的选择非常少。如果你提供一百字的提示词,你只做了大约一百个选择。
如果人工智能根据你的提示生成了一篇一万字的小说,它必须弥补你没有做出的所有选择。它可以通过多种方式做到这一点。一种是将例如网络文章当中其他作者已经做出的选择平均化。这种平均差不多是所有可能的选择中最无趣的一种,这就是为什么人工智能生成的文本通常非常平淡。另一种是让程序进行风格模仿,去模仿某一个特定作家的选择,这会产生高度雷同的故事。在这两种情况下,它都没有创作出有趣的艺术。
我认为尽管画家所做的选择更难量化,但同样的基本原则也适用于视觉艺术。真正的画作承载着大量决策的痕迹。相比之下,使用像DALL-E[1]这样“文本-图像”生成程序的人只是输入提示词,比如“一个穿着盔甲的骑士与一条喷火的龙战斗”,然后让程序完成剩下的工作。(最新版本的DALL-E最多接受四千个字符也就是大概几百个单词的提示词,这并不足以描述场景的每一个细节。)生成图像中的大多数选择必须借鉴网络上已有的类似画作。图像可能会得到精细的渲染,但这并不能归功于输入提示词的人。
一些评论家认为,图像生成器将对视觉文化产生与摄影术问世一样重大的影响。尽管这表面上看起来很合理,但将摄影与生成式人工智能相提并论的想法值得更仔细的审视。摄影术诞生之初,或许并不被视为一种艺术媒介,因为人们似乎并不能对它做出多少选择,只需架好相机并开始曝光。但随着时间的推移,人们意识到可以用相机做很多事情,而艺术性也就潜藏于摄影师所做的众多选择之中。或许很难说清这些选择都是什么,但当你将业余摄影师的作品与专业摄影师的进行比较时,你就可以看出区别。那么问题就变成了:使用“文本-图像”生成器时是否有类似的机会做出大量选择?我认为答案是否定的。无论是数字绘画还是传统绘画的艺术家,他们在创作过程中暗中做出的决策都比几百字的文本提示词所能涵盖的决策多得多。
我们可以想象一个“文本-图像”生成器,经过多次会话之后,它允许你在其文本框中输入数万字,以实现对生成图像极其精细的控制,这将类似于具有纯文本界面的Photoshop。我认为,使用这种程序的人仍然可以被称为艺术家。电影导演贝尼特·米勒(Bennett Miller)曾使用DALL-E 2生成了一些非常引人注目的图像,并在高古轩画廊[2](Gagosian Gallery)展出。为了创作这些图像,他精心制作了详细的文本提示,然后指示DALL-E一遍又一遍地修改和调整生成的图像。他生成了超过十万张图像,最终选出其中的二十张展览。但他表示,在DALL-E的后续版本中,他无法获得类似的结果。我怀疑这可能是因为米勒将DALL-E用于它设计用途以外的事情。就好比他黑进了Microsoft Paint使其像Photoshop一样工作,但一旦新版本的Microsoft Paint发布,他的黑科技就失效了。OpenAI可能并不打算开发产品为米勒这样的用户服务,因为一个需要用户花费数月时间才能生成图像的产品对普罗大众没有吸引力。该公司希望提供一种毫不费力就能生成图像的产品。
贝尼特·米勒
很难想象一个程序经过多次会话能帮助你写出一部好的小说。这个假想中的写作程序可能要求你输入十万字的提示词,以便它生成完全不同的十万字来构成你所想象的小说。我不清楚这样的程序会是什么样子。理论上,如果这样的程序存在,用户或许可以被称为作者。但同样,我认为OpenAI这样的公司并不希望创建这样的ChatGPT版本,让他们的用户像从零开始写小说一样费力。生成式人工智能的卖点在于输出内容远远多于输入内容,而这正是它们无法成为艺术家有效工具的原因。
推广生成式人工智能程序的公司声称它们将激发创造力。本质上而言,他们是在说艺术可以全是灵感,没有汗水——但这两者不能轻易分开。我并不是说艺术必须涉及繁琐的工作。我的意思是,艺术需要在每一个尺度上做出选择。对最终作品而言,在创作过程中做出的无数小选择与在构思过程中做出的少数大决策同样重要。在艺术创作中,将“大”与“重要”等同起来是错误的,大尺度与小尺度之间的相互关系才是艺术性所在。
我怀疑相信“灵感胜过一切”的人并不熟悉艺术创作的工具。我认为,即使一个人的目标是制作娱乐内容而不是创作高雅艺术,这一点也同样适用。人们常常低估制作娱乐内容所需的努力。一部惊悚小说可能做不到卡夫卡所说的那样,成为“一把劈开我们心中冰封海洋的斧头”,但它仍然可以像瑞士手表一样被精心创造。只有基础设定和情节构不成一部恐怖生动的惊悚小说。我认为你无法用语义相同的句子替换惊悚小说中的每一句话,并使生成的小说同样有趣。这说明惊悚小说中的句子以及它们所代表的小尺度选择有助于决定惊悚小说的效果。
许多小说家都有过这样的经历:有人找到他们,确信自己有一个伟大的小说创意,并愿意分享这个创意以换取一半的收益。这样的人无意中透露出,他们认为构思句子是麻烦的琐事,而不是故事写作的基础。生成式人工智能吸引的是那些认为自己可以不实际运用某个媒介工具就能表达自己的人。但传统小说、绘画和电影的创作者之所以被这些艺术形式吸引,是因为他们看到了每种媒介所具有的独特表达潜力。正是想要充分利用这种潜力的渴望使他们的作品无论是作为娱乐产品还是艺术品都令人满意。
当然,大多数写作,无论是文章、报告还是电子邮件,都不需要数千次的选择。在这种情况下,自动化任务处理有什么害处吗?让我提出另一个概括性的观点:只有作者付出努力的写作才值得读者关注。写作过程中的努力并不能保证最终作品值得一读,但没有努力就无法创作出有价值的作品。你在阅读个人电子邮件时投入的注意力与阅读商业报告时不同,但在两种情况下,只有当作者将他的想法注入其中时,读者的注意力才是值得的。
最近,谷歌在巴黎奥运会期间播放了一则其产品Gemini的广告,这款产品被谷歌用来与OpenAI的GPT-4竞争。广告展示了一位父亲使用Gemini撰写一封粉丝信,他的女儿将把封信寄给一位激励她的奥运选手。谷歌在观众广泛反对后撤下了这则广告。一位媒体教授称其为“我见过的最令人不安的广告之一”。值得注意的是,尽管(在这则广告当中)被AI取代的并非艺术创造力,但人们还是做出了这样的反应。没有人期望一个孩子写给运动员的粉丝信会与众不同,如果这个小女孩自己写了这封信,它很可能与其他无数信件无异。但无论是对于写信的孩子还是收到信的运动员而言,一个孩子的粉丝信的意义在于发自内心,而非辞藻华丽。

图片来源于谷歌广告《亲爱的西尼》
我们中的许多人都曾寄过在商店购买的贺卡,知道收件人会清楚地看出这不是我们自己写的。我们不会把从贺曼(Hallmark)公司[3]购买的贺卡上的内容再手抄一遍,因为那会让人觉得不诚实。程序员西蒙·威利森(Simon Willison)将大语言模型的训练描述为“受版权保护的数据的洗钱”,我发现这是一种思考生成式人工智能程序吸引力的有效方式:它们让你参与类似抄袭的行为,但不会给你带来与之相关的愧疚感,因为甚至连你自己也不清楚你在抄袭。
有些人声称,大语言模型并不是在漂洗训练它们的文本,而是在从中学习,就像人类作家从他们读过的书中学习一样。但大语言模型不是作家,甚至算不上是语言的使用者。语言,顾名思义,是一种交流系统,它需要交流的意愿。你手机的自动补全功能可能会提供好的建议或坏的建议,但在任何情况下,它都不是试图对你或者是对你正在发短信的人说什么。ChatGPT可以生成连贯的语句,这让我们不禁想象它能以某种手机自动补全功能做不到的方式理解语言,但实际上它并没有更多的交流意图。
让ChatGPT发出一系列诸如“我很高兴见到你”的词语非常容易。关于大语言模型的工作原理,我们有很多不了解的地方,但我们可以确定的一件事是,ChatGPT并不高兴见到你。一只狗可以表达它很高兴见到你,一个前语言阶段的孩子也可以,尽管两者都缺乏使用词语的能力。ChatGPT没有任何感觉或欲望,这种目的的缺位就是ChatGPT实际上并没有使用语言的原因。使“我很高兴见到你”这句话成为语言话语(linguistic utterance)的,并不是语序通顺的遣词造句,而是交流的意愿。
因为语言对我们来说如此容易,我们很容易忘记它建立在主观感受和交流意愿之上。当大语言模型生成连贯的句子时,我们很容易将这些体验投射到它身上,但这样做实际上只是被它的模仿所迷惑了。这就像当蝴蝶进化出翅膀上的大黑点时,它可以欺骗鸟类,让鸟以为它们是有着大眼睛的捕食者。在某些情况下,黑点就足够了,鸟不太可能捕食这些有黑点的蝴蝶,而蝴蝶并不真正关心它为什么不被捕食,只要它能活下去即可。但蝴蝶与对鸟类构成威胁的捕食者之间有很大的区别。
使用生成式人工智能帮助他们写作的人可能会声称,大语言模型是从训练它的文本中汲取灵感,但我再次强调,这与我们通常所说的一个作家从另一个作家那里汲取灵感并不相同。我们可以想象一个大学生提交了一篇论文,这篇论文完全由一本书中的五页引文组成,她声称这段引文准确地传达了她想说的内容,并且比她自己表达得更好。即使学生完全诚实地告诉导师她做了什么,这也不能说成是她从她引用的书中汲取灵感。大语言模型可以重新组织引文,使其来源无法识别,但这并没有改变事情的本质。
正如语言学家艾米丽·M·本德(Emily M.Bender)所指出的,老师让学生写论文并不是因为世界需要更多的学生论文。写论文的目的是强化学生的批判性思维能力。就像举重训练对任何运动项目的运动员来说都很有用一样,写论文培养了大学生无论最终从事什么工作都必需的技能。使用ChatGPT完成作业就像把叉车开进健身房,那样你永远不会提高你的认知能力。
艾米丽·M·本德
并非所有的写作都需要有创造性、发自内心,或者精彩绝伦,有时只是不得不写。这样的写作可能服务于其他目的,比如为广告吸引点击量或满足官僚机构的需要。当人们被要求写作这类文本时,我们很难责怪他们使用任何可用的工具来加速写作进程。但世界会因为有了更多几乎无需费力的文件而变得更好吗?如果我们拒绝使用大语言模型,那么对低质量文本的需求就会消失,这种说法是不现实的。然而,我认为不可避免的是,我们越是使用大语言模型来满足这些需求,这些需求最终会变得越多。我们正在进入一个时代,在这个时代,人们可能会使用大语言模型从项目列表中生成一个文档,并将其发送给他人,接收者再使用大语言模型将该文档压缩成项目列表。谁能认真地说这是一种进步呢?
有一天我们将会拥有能做人类所能做的任何事的计算机程序,这并非是不可能的,但与推广人工智能的公司所声称的相反,这不是我们在接下来的几年内会看到的事情。即使在与创造力完全无关的领域,当前的人工智能程序也有深刻的局限性,这让我们有充分的理由质疑它们是否配得上被称为智能。
计算机科学家弗朗索瓦·肖莱(François Chollet)提出了以下区别:技能是你在任务中的表现如何,而智能是你获得新技能的效率。我认为这很好地反映了我们对人类的直观感受。大多数人只要有足够的练习就可以学会一项新技能,但一个人掌握技能的速度越快,我们就认为这个人越聪明。这个定义的有趣之处在于——与智商测试不同——它也适用于非人类实体。当一只狗很快学会一个新技能时,我们也认为这是聪明的标志。
弗朗索瓦·肖莱
2019年,研究人员进行了一项教老鼠如何驾驶的实验。他们将老鼠放在带有三根铜线杆的小塑料容器中,当老鼠将爪子放在对应的杆子上时,容器会前进、左转或右转。老鼠可以看到房间另一边的一盘食物,并努力让它们的小车朝它驶去。研究人员每次训练老鼠五分钟,经过二十四次练习后,老鼠已经熟练掌握了驾驶技能。二十四次试验足以让老鼠这种生物掌握一项在物种进化史上可能从未遇到过的任务。我认为这很好地演示了“智能”。
现在我们来思考当前因其表现而广受赞誉的人工智能程序。AlphaZero是谷歌DeepMind开发的一个程序,它的下棋能力超过了任何人类玩家,但在训练期间,它下了四千四百万局棋,远远超过任何人类一生所能下的棋局。要掌握一个新游戏,它必须经历同样巨大的训练量。根据肖莱的定义,像AlphaZero这样的程序技能高超,但它们并不特别聪明,因为它们获得新技能的效率并不高。目前如果程序员事先没有获得任务信息,他还不可能编写出一个仅通过二十四次试验就学会一个简单任务的程序。
经过数百万英里驾驶训练的自动驾驶汽车仍然可能撞上翻倒的拖挂式卡车,因为这样的东西在它们的训练数据中并不常见,而人类在第一次驾驶课时就会知道要停下来。比起我们解决代数方程的能力,我们应对陌生情况的能力才是我们认为人类具有智能的基本原因。在获得这种能力之前,计算机无法取代人类,而获得这种能力仍然是一个遥远的目标。目前,我们只是在寻找可以用涡轮增压自动完成的工作。
尽管经过多年的炒作,生成式人工智能显著提高经济生产力的能力仍然是理论上的。(今年早些时候,高盛集团[4]发布了一份题为《生成式人工智能:花费太多,收益太少?》的报告。)生成式人工智能最成功的任务是降低我们的预期,既包括我们对阅读到的内容的预期,也包括我们为他人写作时的自我预期。它从根本上来讲是一种去人性化的技术,因为它将我们视为低于我们本质的存在,即意义的创造者和理解者。它减少了世界上的“意愿”。
一些人为大语言模型辩护,说人类说或写的大部分内容并非原创。这是事实,但也无关紧要。当有人对你说“对不起”时,过去其他人也说过对不起并不重要,“对不起”只是一个在统计意义上不起眼的文本串也并不重要。如果一个人是真诚的,他们的道歉就是有价值和有意义的,即使以前也有人道过歉。同样,当你告诉某人你很高兴见到他们时,你就是在说有意义的话,即使它缺乏新意。
类似的情况也适用于艺术。无论你是在创作小说、绘画还是电影,你都投入了你与观众的交流之中。你所创作的作品不是非要与人类历史上的每一件艺术品都完全不同才有价值。正是因为你是它的表达者、它源自你独特的生活经历、它抵达了观者生命中的某个特定时刻,才赋予了它新的意义。我们都是前尘往事的产物,但正是由于我们在与他人的互动中度过一生,我们才赋予世界以价值。这是自动完成算法永远无法做到的,不要让任何人告诉你相反的观点。
注:[1]DALL-E,图像生成系统。由美国科技企业OpenAI于2021年1月份推出。[2]高古轩画廊(Gagosian Gallery)是享誉国际的现当代艺术画廊,在纽约、洛杉矶、旧金山、伦敦、巴黎、罗马、雅典、日内瓦、香港及巴塞尔等全球10座国际城市总计设有19个展览空间。 [3]Hallmark(贺曼公司)在1910年由Joyce Hall 创立,经过百年发展,Hallmark的业务已经多元化,包括贺卡、文具、服装、寝具、化妆品、电子贺卡、电脑软件、数码娱乐、电视频道等,遍布包括中国在内过百国家。[4]高盛集团(Goldman Sachs)是一家成立于1869年的美国银行控股公司,为企业、金融机构、国家政府及高净值个人提供各种金融服务。
本文为翻译作品,原文版权归原作者所有。本翻译仅供交流学习使用,非商业用途。感谢公众号授权海螺转载。未经允许,请勿转载。
本期编辑/戴静雯
推荐阅读


阅读 1956
|
|