作者丨论文团队
编辑丨ScienceAI
近年来,大语言模型在文本理解、知识问答和通用推理任务中展现出惊人的能力,也逐渐被引入到化学文献分析、反应预测和分子设计等科学场景中。然而,一个关键问题长期被忽视:
模型「看起来会化学」,是否真的具备化学研究所需的能力?
现有主流评测基准(如 MMLU、SciEval 等)大多以通用学科或浅层科学问答为主,难以刻画化学研究中高度专业、层次分明且跨模态的能力需求。即便是已有的化学评测工作,也往往局限于少量任务或单一能力维度,难以反映模型在真实科研场景中的综合表现。
针对这一核心缺口,认知智能全国重点实验室联合研究团队 —— 中国科学技术大学陈恩红教授团队与科大讯飞研究院 AI for Science 团队,在人工智能领域顶级国际会议 ICLR 2026 发表最新研究成果,论文提出了多层级、细粒度的化学能力评测框架 ChemEval,并系统性揭示了大语言模型在化学领域的真实能力边界。
该工作为 AI for Science 方向中「如何科学地评估大模型是否真正理解化学」这一核心问题,提供了完整、可复现且具有学术深度的答案。
论文地址:https://openreview.net/forumid=JrqjSkEPrX
论文的主要作者为中国科学技术大学博士生黄育庆、张荣杨,所属认知智能全国重点实验室陈恩红教授团队,其他作者包括科大讯飞 AI 研究院执行院长王士进、副院长李鑫、研究员徐飞扬、梁华东等人。团队在 AI4Chemistry 领域开展深入研究,具体包括化学推理大模型 post-training、化工大模型 DeepReasearch、化学大模型智能体、化学领域大模型评测等。
ChemEval —— 从化学研究者视角出发的评测体系
ChemEval 并非简单堆叠题目,而是围绕化学研究的认知过程,构建了一套四层递进式评测结构:
整个评测体系共包含 13 个能力维度、62 项具体任务,既涵盖文本任务,也系统引入分子结构图、光谱图等多模态输入,贴近真实化学研究流程。
更重要的是,ChemEval 的数据并非简单复用已有公开数据,而是结合开源数据集与化学领域专家人工构建的数据,通过严格的三阶段标注与审校流程,确保科学性与评测可靠性。
ChemEval 概览图与测试数据示例
通用大模型 vs. 化学专用模型,谁更「懂化学」?
基于 ChemEval,研究团队对主流通用大语言模型与化学专用模型进行了系统评测,得到了一系列具有启发性的结论:
这些结果以系统性、量化方式揭示了当前大模型在化学研究中的真实能力边界,也为后续模型设计与训练方向提供了明确指引。
通用大模型与化学专用模型的评估结果
为 AI for Science 提供「标尺」,而不只是排行榜
不同于「刷榜型」评测工作,ChemEval 更强调诊断价值:
研究团队认为,真正推动 AI for Science 的关键,不是让模型在单一任务上表现更好,而是让模型在完整科学认知链条中更可靠、更可解释。ChemEval 正是朝这一目标迈出的重要一步。
实验室持续推进 AI × Chemistry 深度融合
该工作是认知智能全国重点实验室与科大讯飞 AI for Science 团队在科学智能与化学大模型评测方向的重要进展之一。近年来,团队围绕「模型是否真正理解科学」这一核心问题,持续在科学推理、多模态理解和领域评测体系建设方面开展系统研究。
未来,团队将进一步探索化学大模型与专业仿真工具、实验数据和多模态信息的深度融合,推动 AI 从「辅助理解」走向「参与发现」,为化学研究范式变革提供坚实的智能基础。
本站是社保查询公益性网站链接,数据来自各地人力资源和社会保障局,具体内容以官网为准。
定期更新查询链接数据 苏ICP备17010502号-11