大语言模型意识水平测评报告显示:DeepSeek-R1语义一致性表现较好
来源:科技日报 发布时间:2025-03-03 12:35:25

2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个国家与地区的90多家机构和企业参与的《全球首个大语言模型意识水平“识商”白盒DIKWP测评2025报告(100题版)》(以下简称《报告》)日前出炉。

《报告》的核心亮点在于全球首创的意识水平测评体系。《报告》基于DIKWP模型,从数据、信息、知识、智慧、意图等方面,构建全链路评估体系。测试题全面覆盖大语言模型的感知与信息处理、知识构建与推理、智慧应用与问题解决、意图识别与调整四大模块,对主流大语言模型的意识水平进行系统化、量化深度剖析。

《报告》对当前主流的大语言模型进行了全面测评,包括DeepSeek-V3、ChatGPT-o1、通义千问-2.5、ChatGPT-4o、Kimi、文心大模型-3.5和Llama-3.1等。测评结果显示,不同模型在不同模块的表现各有千秋。

例如,感知与信息处理部分主要考察模型在处理原始数据、提取信息和保持语义一致性方面的表现。ChatGPT-4o和ChatGPT-o1在数据转换和格式处理方面表现出色,体现出稳定性。ChatGPT-o3-mini、ChatGPT-o3-mini-high、通义千问-2.5、Kimi和Grok在信息提取方面表现优异,特别是在数据到信息转化路径上的表现尤为突出。DeepSeek-R1、ChatGPT-4o、Kimi和ChatGLM-4 Plus在保持语义一致性方面表现较好。

知识构建与推理部分的测评考察模型将信息整合为知识的能力,以及逻辑推理能力。结果显示,通义千问-2.5、ChatGLM-4 Plus和ChatGPT-4o表现突出。

意图识别与调整部分的测评重点考察模型对用户意图的理解能力,以及根据意图调整输出的能力。结果显示,豆包和Gemini-2.0 Flash Thinking Experimental表现较好,能够准确理解用户的问题并提供相关回答。

标签:

猜你喜欢

大语言模型意识水平测评报告显示:DeepSeek-R1语

2月25日,记者从世界人工意识协会国际人工智能DIKWP测评标准委员会获悉,由该协会主导、全球10余个...更多

2025-03-03 12:35:25

推动健康数据互联互通

 我所提出的建议在国家有关政策制定中发挥了作用。日前,记者采访全国人大代表、中国科学院科...更多

2025-02-28 18:24:35

三峡电厂“机器人”智能守护大国重器

近日,三峡集团长江电力三峡电厂新开发的大坝清扫机器人投入使用,三峡电厂机器人编队已达8种。这支...更多

2025-02-28 18:23:14

24小时智能助教、科研“特助”……“AI+高校”是

新华社北京2月26日电(记者魏梦佳、赵旭)为学生量身定制学业规划、24小时解答疑难问题,为研究人员...更多

2025-02-28 18:20:26

有人才有未来

 新华网联合科锐国际发起有人才有未来特别企划,全面展现央国企、顶尖科研院所及行业标杆民企...更多

2025-02-28 18:19:11

中国经济面面观|聚焦中国AI大模型之二:人人关注

近期,国产AI大模型的显著进步引发全球关注。微观层面,我们可以向大模型提问获取答案或者让它撰写...更多

2025-02-28 18:17:03

秀我中国|大模型计算慢?北京这个“未来AI工厂”

坐落在北京市朝阳区酒仙桥的E级智算中心——北京数字经济算力中心,近日宣布基础设施落成。这座定位...更多

2025-02-28 18:15:14

我国牵头制定世界首个养老机器人国际标准正式发布

 近日,国际电工委员会(IEC)正式发布由我国牵头制定的养老机器人国际标准。这项标准依据老年...更多

2025-02-28 18:13:46

深圳机器人“天团”解锁多元新赛道

 这是我见过动作与人类最接近的机器人。它翻过来以后调整那两下小碎步,太可爱啦!2月23日,深...更多

2025-02-28 18:12:12

三部门联合发文改善县域充换电设施

 为加快补齐农村地区公共充换电设施短板,进一步释放新能源汽车消费潜力,财政部办公厅、工业...更多

2025-02-28 18:10:52