扳回一局！顶级小说家全方位吊打AI，人类终于赢了-格隆汇

过去一年，我们听过很多AI“碾压”人类的事：

AI生成的画作拿下了艺术比赛第一名，AI操控的无人机也拿到了无人机比赛的冠军….

难不成，AI马上就要全面吊打人类了？未必！

前不久，国外研究员策划了一场AI与人的文学创作比赛，让GPT-4与阿根廷作家帕特里西奥·普龙来了一场文学创作比赛。

这次比赛的目的其实很简单，就想看看AI能不能在创意写作上比专业作家强。

结果却出乎绝大部分人的意料。普隆单方面吊打GPT-4，在所有维度上还都比GPT-4要强，甚至强得还不止一点。

从这次比赛不难看出，至少在创意写作这事上，AI与人类顶级作家还有巨大的差距。

/ 01 / 一次顶级的人机文学对决

从简历上看，这个普隆很强。

2010年，普隆曾被英国文学杂志《格兰塔》评选22位杰出西班牙语新生代作家之一，代表作是《我父母的灵魂在雨中升腾》。这本小说在豆瓣上的评分有7.3分。

而AI方面则派出了它们的最强选手GPT-4 Turbo（gpt-4-0125-preview版本）。在GPT-4o发布前，GPT-4 Turbo是OpenAI的最强模型。

一直以来，解决语言问题也是大模型最擅长的事情。根据晓得智能的测试，GPT-4o分别能语文和英语科目考到111.5分（150分制）和111.5分（120分制）。

也就是说，大模型在阅读理解、语法运用、以及基本写作方面已经可以与人类考生相媲美。

介绍完参赛选手，再来说说赛制。比赛总共分为两个阶段：标题创作和梗概写作。

在标题创作阶段，双方需要各提供30个电影名字，共计 60 个。而到了梗概写作环节，双方就需要针对这60个电影名称编写故事概要。

对于GPT-4，研究员会输入Prompt告诉它比赛任务。指令如下：

我们正在进行一项实验，将你的创意写作技巧与著名小说家Patricio Pron的创意写作技巧进行比较。你的任务是为虚构的电影标题生成概要。这些概要应该具有创造性，吸引评论家和观众，并具有内在的文学价值。

以下是有关Patricio Pron的一些信息：他是一位著名作家，2010年被Granta评为西班牙语顶尖青年作家之一，并于2019年凭借其作品Mañana tendremos otros nombres（明天我们会有另外的名字）获得Alfaguara奖。拟议的标题是：{title}。请撰写符合这些标准的600字概要。

在评审环节，普隆和GPT-4创作的内容会交给6个文学家，这些专家会从吸引力、原创性、创造力、传播价值、个人风格这5个维度对所有作品进行盲评，并给出从0到3分的打分。

不同分数对应着不同能力。以原创性为例，评分标准如下：

0分：风格公式化且完全传统。

1分：风格有一些原创元素，但以传统为主。

2分：风格相对新颖，不易与其他作家联系起来。

3分：风格高度原创，展现了作家的个人风格。

介绍完选手和赛制，我们接着来看看这次比赛的结果。

/ 02 / 五个比拼维度全败，GPT-4被吊打

这次比赛的结果令人大吃一惊：

普隆单方面吊打GPT-4，在所有维度上都比GPT-4要强，甚至强得还不止一点。

一个个来说，先说吸引力。标题(Theme)是文章的门面，风格内容(Style) 是文章的灵魂。好的标题吸引读者，好的内容留住读者。

其中，GPT-4给出的标题包括：

1.所有的情歌都是悲伤的歌

2.植物园里的日食

3.未来的鬼魂等

而普隆提出的标题是：

1.在破碎的地平线之外

2.雾中的阴影

3.被遗忘的旋律等

由于差距明显，所以AI在这个环节惨败。其中，有83%的人给GPT-4标题的吸引力打了0-1分，而普隆的标题则有62%的人给出了2-3分。

在内容吸引力上，两者差距更大。95%的人只给GPT-4内容吸引力打了0-1，而普隆的内容则有72%的人给出了2-3分。

再来说说原创性，同样是评价文章标题和内容。一般来说，越有特色的标题，越能够吸引读者。独特的文风，创新的情节都是评价一个好作家的重要标准。

在此维度上，GPT-4的标题有81%的人给出0-1分，内容有高达95%的人给出 0-1 分。原因是，GPT-4在工作时，更多的是模仿与重构，原创内容占比非常低。

而作为顶级小说家，普隆在这个环节自然轻车熟路，68%的人给标题打了2-3分，69%的人给内容打了2-3分。

第三个环节是创造力，这个维度的评估标准是，标题与内容有没有创造新的情节，并且能够融资整篇文章，并契合主旨。

这是普隆发挥最好的环节，有88%的人给出了2-3分。而GPT-4则一如既往的低迷，有76%的人给GPT-4的创造力打了0-1分。

之所以双方在这个环节差距很大，因为人会对标题、情节等元素是否契合文章有更准确的判断。而GPT-4经常会用到错误的情节，从而让文章偏离主旨。

第四个环节是个人风格的比拼。在小说创作中，个人风格就像是一个歌手的音色，不同的作家往往会有不同的个人语言风格。

可以看出，对于GPT-4有93%的人给出0-1分，因为GPT-4生成结果多是拼贴，从而造成了个人风格混乱。而对于普隆这样的顶级小说家，其个人风格必然强烈，有76%的人给出了2-3分。

最后，便是双方内容是否能够被收录进选集。这一维度关注的是文章写作质量，是否值得收进选集去传播。

在这个环节，有86%的人认为GPT-4的文章没有价值，而有56%的人给普隆打出了2-3分，认为其文章有收录进选集的潜力，非常值得传播。

至此，GPT-4在五个环节的比拼上全军覆没，彻底完败。

/ 03 / AI输在了哪？

这次比赛AI输了，也暴露了AI现有的问题。

比如，LLM(大语言模型)的工作方式会导致其在创意写作方面存在固有的局限性。

在这个机制下，大模型会从大量文本中提取元素，然后生成上下文连贯的文章，并且会模仿人类的写作风格。但问题是，这种完全基于模仿的方式，很容易导致生成的内容千篇一律。

与普通人相比，这或许已经足够。但与顶尖作家相比，它仍然缺乏对生活的感知力，对生命的思考，直接体现在内容原创性、深度的缺失。

另外，提示词的优劣也会直接影响GPT-4生成的内容结果。比如，好的标题能够引导GPT-4生成更好的文章。

研究员做了一个测试，他们用普隆给出的标题，让GPT-4去生成文章。结果是，GPT-4用普隆的标题生成的文章质量，远远高于用自己标题生成的文章质量。

其中，仅原创性上的得分两者就差了57%，其他维度两者的表现也有不小的差距。

在雷达图中，蓝色线是GPT-4在用普隆的标题生成文本的得分，绿色线是它使用自己标题标题生成文本时的得分。

可见，除了GPT-4本身的局限性，效果也会受到提示词很大的影响。现阶段，人类的创意思维做引导，更有可能让GPT-4产生出优质的内容，也就是说，人机协作的工作方式或许会比完全自主的机器工作更有发展空间。

或许终有一天，人类在AI面前会毫无还手之力。但至少不是现在，这次实验再次证明：在情感丰富度和创造力等人类所擅长的领域，AI还有很长的路要走。

论文标题：Pron vs Prompt: CAN LARGE LANGUAGE MODELS ALREADY

CHALLENGE A WORLD-CLASS FICTION AUTHOR AT CREATIVE

TEXT WRITING?

文／十一

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

扳回一局！顶级小说家全方位吊打AI，人类终于赢了

相关阅读

评论