现代AI系统通过图灵测试首获证实
2026-05-22 07:02:23 来源:科技日报
(资料图片仅供参考)
美国加州大学圣迭戈分校科学家开展了一项实证研究,首次证明现代人工智能(AI)系统通过了图灵测试。相关论文发表于新一期《美国国家科学院院刊》。
这是首个严格采用图灵测试来评估大语言模型的研究。图灵测试由英国数学家、“计算机科学之父”阿兰·图灵于1950年提出,是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准。
为获得更具代表性的结果,团队研究了两组人群:一组是美国加州大学圣迭戈分校本科生;另一组是通过Prolific平台招募的更广泛的在线样本。整个实验共有近500人参与。
在随机对照试验中,参与者同时与另外两方聊天,一方是人类,另一方是大语言模型。实验涉及4种模型,包括目前最先进的GPT-4.5和LLaMa-3.1-405B,以及较旧的基线模型GPT-4o和ELIZA,后者是20世纪60年代基于规则的经典聊天机器人。
结果显示,GPT-4.5在73%的情况下被判定为人类,这意味着参与者将其选为“人类”的频率,明显高于他们选择真实人类参与者的频率。在同样提示下,LLaMa-3.1-405B在56%的情况下被判定为“人类”,在统计学上与其所比较的真实人类没有显著区别。基线系统的表现则逊色得多:ELIZA和GPT-4o总体上分别只有23%和21%的情况被选为“人类”。
若给予恰当的提示,先进大语言模型能表现出与人类无异的语气、直率、幽默,乃至易犯的错误。科学家此前已知道,大语言模型几乎可以轻松生成与任何主题相关的知识,但这项测试表明,它还能令人信服地展现社会行为特征,这对人们如何看待AI具有重大意义。
团队表示,每个大语言模型都有“性格”,会采用特定的人物设定和沟通风格。大语言模型并非依靠展示知识的能力取胜,而是因其像人类一样会犯错而胜出。这些特征,与他们认为图灵所设想的那种数学与逻辑解题能力并不相同。
不过,团队也发现,若无明确指示,这些模型被误认为人类的概率便会大打折扣:GPT-4.5的获选率降至36%,LLaMa-3.1降至38%,基线系统ELIZA和GPT-4o被选为人类的概率则更低。
相关阅读
- (2026-05-22)现代AI系统通过图灵测试首获证实
- (2026-05-21)圣诺生物:醋酸特利加压素原料药完成美国FDA备案
- (2026-05-21)筑牢安全防线 凝聚治理力量——小市街道总工会开展新业态关爱服务活动
- (2026-05-21)【播资讯】权益类新基金屡现“爆款” 年内首募破2660亿元
- (2026-05-20)焦点短讯!崇达技术(002815.SZ):控股子公司普诺威进入创新层
- (2026-05-20)墨西哥:2025/26榨季产糖460万吨
热点推荐
- (2026-05-22)现代AI系统通过图灵测试首获证实
- (2026-05-22)焦点播报:沧州砺科智能装备有限公司成立 注册资本100万人民币
- (2026-05-21)美股费城半导体指数盘初涨0.5%
- (2026-05-21)焦点讯息:日媒:澳大利亚进口中国汽车的数量首超日本
- (2026-05-21)圣诺生物:醋酸特利加压素原料药完成美国FDA备案
- (2026-05-21)商务部:前4月服务零售额同比增5.6% 供给和需求良性互动-每日速讯
最近更新
- (2026-05-22)现代AI系统通过图灵测试首获证实
- (2026-05-22)焦点播报:沧州砺科智能装备有限公司成立 注册资本100万人民币
- (2026-05-21)美股费城半导体指数盘初涨0.5%
- (2026-05-21)焦点讯息:日媒:澳大利亚进口中国汽车的数量首超日本
- (2026-05-21)圣诺生物:醋酸特利加压素原料药完成美国FDA备案
- (2026-05-21)商务部:前4月服务零售额同比增5.6% 供给和需求良性互动-每日速讯
- (2026-05-21)PriceSeek提醒:天华新能子公司拥有3万吨碳酸锂产能|头条
- (2026-05-21)筑牢安全防线 凝聚治理力量——小市街道总工会开展新业态关爱服务活动
- (2026-05-21)3000万客流+超20亿销售额 “一路繁花”让生态“高颜值”转化为经济“高价值”-微速讯
- (2026-05-21)越疆(02432)盘中上涨5.56% 近日多重布局加码机器人赛道
- (2026-05-21)探访卓越级智能工厂|一块玻璃的“数智蝶变”
- (2026-05-21)【播资讯】权益类新基金屡现“爆款” 年内首募破2660亿元
- (2026-05-21)博雷顿:完成H股全流通
- (2026-05-21)银行业一季度不良率数据起底 资产质量总体稳健
- (2026-05-20)热点评!江波龙:定增申请获深交所审核通过
- (2026-05-20)焦点短讯!崇达技术(002815.SZ):控股子公司普诺威进入创新层
- (2026-05-20)测绘股份:控股股东拟减持不超3%公司股份
- (2026-05-20)重点聚焦!金溢科技:控股股东敏行电子质押184万股 累计质押近五成持股
- (2026-05-20)墨西哥:2025/26榨季产糖460万吨
- (2026-05-20)[快讯]易明医药172万限售股5月21日解禁_焦点速看
- (2026-05-20)生意社:5月20日青岛炼厂液化气价格上调
- (2026-05-20)5月20日生意社螺纹钢基准价为3224.00元/吨 热点聚焦
- (2026-05-20)今日讯!孤雨(05.20)主要商品操作建议
- (2026-05-20)每日速读!顺丰控股:融资净买入4348.87万元,融资余额42.42亿元
- (2026-05-19)商业航天重大资产重组,金利华电明日复牌!_速递
- (2026-05-19)“玩”美新消费丨从卖“陶瓷”到卖“做陶瓷”,“手搓瓷器”火了! 每日焦点
- (2026-05-19)每日热文:特斯拉在北京、上海等 9 座城市招聘智驾测试(实车测试)技师
- (2026-05-19)快报:RIMBACO(01953)发盈喜,预期中期股东应占综合纯利约1580万令吉 同比增加
- (2026-05-19)今日关注:大唐发电:公司尚无已投运算电协同项目
- (2026-05-19)2026天津航运展 | 嘿,朋友!你眼中的天津,是什么模样?
手机夜间模式怎么设置?夜间模式省电吗?
平板电脑怎么选?平板电脑有必要买吗?
虚拟内存设置多少合适?虚拟内存有什么弊端? 




