LifePrompt Inc. 公布的结果显示,OpenAI 的 ChatGPT 5.2 Thinking 模型在东京大学和京都大学的入学考试中击败了所有人类考生,东京大学医学部考试中得分比最高分人类考生高出约50分。但论述题仍是短板,世界历史仅得25%的分数。
据东京AI创业公司 LifePrompt Inc. 周一公布的结果显示,OpenAI 旗下的 ChatGPT 在2026年日本两所最顶尖学府——东京大学和京都大学的入学考试中,得分超越了所有人类考生。
该公司将考试题目转换为图像数据后输入 OpenAI 的 ChatGPT 5.2 Thinking 模型进行测试,论述类答题则由日本知名升学补习机构河合塾的教师负责评分。bernama

在东京大学自然科学III类考试中——该考试被普遍认为是日本竞争最激烈的赛道,通向医学院——ChatGPT 获得550分中的503分,比得分最高的人类考生高出约50分(该考生得分为453分)。该AI在数学科目中还取得了满分。
在人文社会科学类考试中,ChatGPT 得分为550分中的452分,超过了人文社会科学III类最高人类考生的434分。bernama
在京都大学,该AI在法学部考试中获得771分,超过了最高录取分数线734分;在医学部考试中获得1176分,高于人类最高分考生的1098分。bernama
尽管该模型在定量分析类科目中表现出色,但在论述题方面表现欠佳。世界历史论述题仅得25%的分数,而英语考试却取得了90%的高分。bernama
这一结果是快速进步的缩影。2024年,LifePrompt 用东京大学入学考试测试 ChatGPT-4,该模型未能达到最低及格分数。2025年,新版 o1 模型首次突破及格线。而今年的成绩——超越所有人类考生——代表着一次鲜有人预料到的飞跃。
今年1月初,LifePrompt 已经展示了 ChatGPT 5.2 Thinking 模型在日本全国统一大学入学考试中的表现:15门科目中有9门获得满分,涵盖数学、化学、信息学以及政治经济学,综合准确率高达97%。
这一发现重新引发了关于标准化考试目的的争论。庆应义塾大学教授、日本人工智能学会会长栗原聪表示,人类和 AI 不应在同一标准下进行比较。他说:“正如计算器能比人类更快、更准确地完成计算一样,AI 取得高分是理所当然的。”他还补充说,“是时候重新审视现行入学考试了——这类考试目前侧重于考查知识记忆和计算能力。”bernama
LifePrompt 的远藤聪则呼吁企业予以重视:“鉴于 AI 发展的迅猛势头,企业在引入 AI 时,需要着眼于未来10到20年的业务形态。”bernama
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断