新研究探索人工智能和人类聊天机器人的创造力

在著名的《科学报告》杂志上最近发表的一项研究中,研究人员使用替代用途任务 (AUT) 全面分析了人类参与者和人工智能 (AI) 聊天机器人的创造力。 这项研究为人工智能产生的创造力的演变及其深远影响提供了宝贵的见解。

人工智能和人类创造力受到审视

生成式人工智能工具的出现,包括聊天生成预训练变压器 (ChatGPT) 和 MidJourney,引发了关于它们对就业、教育以及人工智能生成内容的法律方面的影响的广泛讨论。 传统上,创造力被认为是一种独特的人类特征,其特点是原创性和实用性。 然而,这项研究挑战了这些长期存在的观念。

数据收集和检查

在这项研究中,研究人员收集了通过在线平台 Prolific 招募的以英语为母语的人类参与者的 AUT 数据。 从最初的 310 名参与者中,选择了 256 名平均年龄为 30.4 岁的勤奋人士进行分析。 这个多元化的群体主要由来自美国、英国、加拿大和爱尔兰等地区的全职员工或学生组成。

2023 年,三个人工智能聊天机器人——ChatGPT3.5 (ChatGPT3)、ChatGPT4 和 Copy.Ai——经历了 11 次不同的会话,其中包含四个对象提示。 这种严格的方法确保了与广泛的人类数据集的稳健比较。

AUT 过程

AUT 程序让参与者使用四个物体:绳子、盒子、铅笔和蜡烛,重点关注反应的原创性而不是数量。 虽然人类每个会话只接受一次测试,但人工智能聊天机器人参与了多个会话,并稍微调整了指令,以确保公平比较。

在分析之前,所有回复都经过拼写检查,任何模棱两可的简短答案都被排除。 该研究通过使用 SemDis 平台测量对象之间的语义距离及其 AUT 响应来评估发散思维。 解决了响应中的潜在偏差,特别是人工智能使用“自己动手”(DIY)等术语,以确保一致性。

评级和全面分析

答案的原创性得到了六位人类评分者的评分,他们仍然不知道这些答案是来自人类还是人工智能。 每个响应都按照 1 到 5 的等级进行评估,遵循明确的指南以保持客观性。 重要的是,这些集体评级表现出较高的评级者间可靠性。

这些数据经过严格的统计分析,纳入了组和对象等固定效应以及潜在的协变量。

该研究的分析揭示了对人类和人工智能聊天机器人创造性发散思维的有趣见解。 值得注意的是,语义距离和人类主观评分之间出现了适度的相关性,这表明两种评分方法都捕捉到了相似的质量,尽管并不完全相同。

在人类和人工智能之间的广泛比较中,出现了一致的趋势。 人工智能聊天机器人的表现通常优于人类,并且在语义距离方面取得了更高的平均分和最高分。 当将流利度作为协变量考虑时,人们注意到,虽然它降低了平均分数,但它增加了最高分数。 

这种模式也延伸到了人类对创造力的主观评分,人工智能在平均分和最高分上始终优于人类。 值得注意的是,人工智能聊天机器人始终提供非常规但合乎逻辑的对象使用,得分从未低于某个阈值。

对特定物体的反应比较

该研究探讨了人类和单个人工智能聊天机器人对特定物体的反应:绳子、盒子、铅笔和蜡烛。 结果显示,ChatGPT3 和 ChatGPT4 这两种人工智能模型在平均语义距离得分方面优于人类。 然而,在考虑最高分数时,人类参与者和人工智能聊天机器人之间没有统计学上的显着差异。 对绳子的反应往往比其他物体获得更低的语义距离分数。

评估创造力的人类主观评分显示,ChatGPT4 始终获得比人类和其他聊天机器人更高的评分,展示了其在该领域的优势。 有趣的是,当聊天机器人负责处理“铅笔”这个物体时,并没有观察到这种优势。 此外,与其他对象相比,与对象“蜡烛”相关的响应通常获得较低的评分。 值得注意的是,两个人工智能会话,一个来自 ChatGPT3,另一个来自 ChatGPT4,记录了物体“盒子”的最高得分,高于任何人类。

来源:https://www.cryptopolitan.com/creativity-in-ai-and- human-chatbots/