扳回一局!顶级小说家全方位吊打AI,人类终于赢了

一次顶级的人机文学对决

过去一年,我们听过很多AI“碾压”人类的事:

AI生成的画作拿下了艺术比赛第一名,AI操控的无人机也拿到了无人机比赛的冠军….

难不成,AI马上就要全面吊打人类了?未必!

前不久,国外研究员策划了一场AI与人的文学创作比赛,让GPT-4与阿根廷作家帕特里西奥·普龙来了一场文学创作比赛。

这次比赛的目的其实很简单,就想看看AI能不能在创意写作上比专业作家强。

结果却出乎绝大部分人的意料。普隆单方面吊打GPT-4,在所有维度上还都比GPT-4要强,甚至强得还不止一点。

从这次比赛不难看出,至少在创意写作这事上,AI与人类顶级作家还有巨大的差距。

/ 01 / 一次顶级的人机文学对决

从简历上看,这个普隆很强。

2010年,普隆曾被英国文学杂志《格兰塔》评选22位杰出西班牙语新生代作家之一,代表作是《我父母的灵魂在雨中升腾》。这本小说在豆瓣上的评分有7.3分。

而AI方面则派出了它们的最强选手GPT-4 Turbo(gpt-4-0125-preview版本)。在GPT-4o发布前,GPT-4 Turbo是OpenAI的最强模型。

一直以来,解决语言问题也是大模型最擅长的事情。根据晓得智能的测试,GPT-4o分别能语文和英语科目考到111.5分(150分制)和111.5分(120分制)。

也就是说,大模型在阅读理解、语法运用、以及基本写作方面已经可以与人类考生相媲美。

介绍完参赛选手,再来说说赛制。比赛总共分为两个阶段:标题创作和梗概写作。

在标题创作阶段,双方需要各提供30个电影名字,共计 60 个。而到了梗概写作环节,双方就需要针对这60个电影名称编写故事概要。

对于GPT-4,研究员会输入Prompt告诉它比赛任务。指令如下:

我们正在进行一项实验,将你的创意写作技巧与著名小说家Patricio Pron的创意写作技巧进行比较。你的任务是为虚构的电影标题生成概要。这些概要应该具有创造性,吸引评论家和观众,并具有内在的文学价值。

以下是有关Patricio Pron的一些信息:他是一位著名作家,2010年被Granta评为西班牙语顶尖青年作家之一,并于2019年凭借其作品Mañana tendremos otros nombres(明天我们会有另外的名字)获得Alfaguara奖。拟议的标题是:{title}。请撰写符合这些标准的600字概要。

在评审环节,普隆和GPT-4创作的内容会交给6个文学家,这些专家会从吸引力、原创性、创造力、传播价值、个人风格这5个维度对所有作品进行盲评,并给出从0到3分的打分。

不同分数对应着不同能力。以原创性为例,评分标准如下:

0分:风格公式化且完全传统。

1分:风格有一些原创元素,但以传统为主。

2分:风格相对新颖,不易与其他作家联系起来。

3分:风格高度原创,展现了作家的个人风格。

介绍完选手和赛制,我们接着来看看这次比赛的结果。

/ 02 / 五个比拼维度全败,GPT-4被吊打

这次比赛的结果令人大吃一惊:

普隆单方面吊打GPT-4,在所有维度上都比GPT-4要强,甚至强得还不止一点。

一个个来说,先说吸引力。标题(Theme)是文章的门面,风格内容(Style) 是文章的灵魂。好的标题吸引读者,好的内容留住读者。

其中,GPT-4给出的标题包括:

1.所有的情歌都是悲伤的歌

2.植物园里的日食

3.未来的鬼魂等

而普隆提出的标题是:

1.在破碎的地平线之外

2.雾中的阴影

3.被遗忘的旋律等

由于差距明显,所以AI在这个环节惨败。其中,有83%的人给GPT-4标题的吸引力打了0-1分,而普隆的标题则有62%的人给出了2-3分。

在内容吸引力上,两者差距更大。95%的人只给GPT-4内容吸引力打了0-1,而普隆的内容则有72%的人给出了2-3分。

再来说说原创性,同样是评价文章标题和内容。一般来说,越有特色的标题,越能够吸引读者。独特的文风,创新的情节都是评价一个好作家的重要标准。

在此维度上,GPT-4的标题有81%的人给出0-1分,内容有高达95%的人给出 0-1 分。原因是,GPT-4在工作时,更多的是模仿与重构,原创内容占比非常低。

而作为顶级小说家,普隆在这个环节自然轻车熟路,68%的人给标题打了2-3分,69%的人给内容打了2-3分。

第三个环节是创造力,这个维度的评估标准是,标题与内容有没有创造新的情节,并且能够融资整篇文章,并契合主旨。

这是普隆发挥最好的环节,有88%的人给出了2-3分。而GPT-4则一如既往的低迷,有76%的人给GPT-4的创造力打了0-1分。

之所以双方在这个环节差距很大,因为人会对标题、情节等元素是否契合文章有更准确的判断。而GPT-4经常会用到错误的情节,从而让文章偏离主旨。

第四个环节是个人风格的比拼。在小说创作中,个人风格就像是一个歌手的音色,不同的作家往往会有不同的个人语言风格。

可以看出,对于GPT-4有93%的人给出0-1分,因为GPT-4生成结果多是拼贴,从而造成了个人风格混乱。而对于普隆这样的顶级小说家,其个人风格必然强烈,有76%的人给出了2-3分。

最后,便是双方内容是否能够被收录进选集。这一维度关注的是文章写作质量,是否值得收进选集去传播。

在这个环节,有86%的人认为GPT-4的文章没有价值,而有56%的人给普隆打出了2-3分,认为其文章有收录进选集的潜力,非常值得传播。

至此,GPT-4在五个环节的比拼上全军覆没,彻底完败。

/ 03 / AI输在了哪?

这次比赛AI输了,也暴露了AI现有的问题。

比如,LLM(大语言模型)的工作方式会导致其在创意写作方面存在固有的局限性。

在这个机制下,大模型会从大量文本中提取元素,然后生成上下文连贯的文章,并且会模仿人类的写作风格。但问题是,这种完全基于模仿的方式,很容易导致生成的内容千篇一律。

与普通人相比,这或许已经足够。但与顶尖作家相比,它仍然缺乏对生活的感知力,对生命的思考,直接体现在内容原创性、深度的缺失。

另外,提示词的优劣也会直接影响GPT-4生成的内容结果。比如,好的标题能够引导GPT-4生成更好的文章。

研究员做了一个测试,他们用普隆给出的标题,让GPT-4去生成文章。结果是,GPT-4用普隆的标题生成的文章质量,远远高于用自己标题生成的文章质量。

其中,仅原创性上的得分两者就差了57%,其他维度两者的表现也有不小的差距。

在雷达图中,蓝色线是GPT-4在用普隆的标题生成文本的得分,绿色线是它使用自己标题标题生成文本时的得分。

可见,除了GPT-4本身的局限性,效果也会受到提示词很大的影响。现阶段,人类的创意思维做引导,更有可能让GPT-4产生出优质的内容,也就是说,人机协作的工作方式或许会比完全自主的机器工作更有发展空间。

或许终有一天,人类在AI面前会毫无还手之力。但至少不是现在,这次实验再次证明:在情感丰富度和创造力等人类所擅长的领域,AI还有很长的路要走。

论文标题:Pron vs Prompt: CAN LARGE LANGUAGE MODELS ALREADY

CHALLENGE A WORLD-CLASS FICTION AUTHOR AT CREATIVE

TEXT WRITING?


文/十一

PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。



格隆汇声明:文中观点均来自原作者,不代表格隆汇观点及立场。特别提醒,投资决策需建立在独立思考之上,本文内容仅供参考,不作为实际操作建议,交易风险自担。

相关阅读

评论