天天热讯:GPT-4满分通过MIT本科数学考试！这套提示词火了

当前位置：首页 > 快讯 > 正文

天天热讯:GPT-4满分通过MIT本科数学考试！这套提示词火了

来源：快科技时间：2023-06-17 12:57:26

万万想不到啊，MIT数学考试，被GPT-4攻破了？！

突然有人在最新论文工作中高调宣布：

(资料图)

GPT-4在MIT的数学和EECS（电气工程和计算机科学系）本科学位考试中，表现出的能力完全满足毕业要求。

而且妥妥地拿下满分！

要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。

而且强如上一代王者GPT-3.5，在同样的测试中，只成功搞定了三分之一。

△GPT-3.5考试成绩

论文一出，无数目光迅速被吸引过来。

GPT-4这样看似开挂的行为，自然引发了不少网友的感慨。

比GPT-3.5强好多，好耶！

咱就是说，有没有可能以后不需要比GPT-4更强的模型，来解决学术问题了？

还有网友展现了自己网上冲浪的“前沿性”，玩了个这两天Yann LeCun吐槽“GPT-4智商不如狗”的梗：

GPT-4开挂MIT考试

具体来说，GPT-4这次是参与了这样一场测试：

研究团队策划了一个数据集，其中包含4550个问题和解决方案。

这4550个问题和解决方案，来自MIT数学系和EECS的学生获得本科学位，需要学习的课程问题集、期中考试和期末考试。

包括：

6-1：电气科学与工程；6-2：电气工程与计算机科学；6-3：计算机科学与工程；6-4：人工智能与决策；18-1：普通数学；18-2：应用数学；18-3：纯数学；18-C：数学与计算机科学。

△每个专业的详细分类总结

题目统统出自MIT的数据集，从中随机生成228个问题，不涉及图像和已有解决方案的问题。

题目的难度等级由易到难依次为：练习、习题、期中考试、期末考试、实验和专题。

按答案类型排序，题目的难度由易到难依次为：编程、开放、选择题、数值、表达式和图像。

这一次，参与考试的不只有GPT-4和GPT-3.5，还有StableVicuna-13B、LLaMA-30B和LLaMA-60B。

选择让这4个大模型作为考试参赛选手，原因是它们是“最先进的大语言模型”。

△最终考试成绩

通过表格里的数据可以看到，得分最高的是经过调优后的GPT-4，得分率100%；表现最一般的是LLaMA-30B，只拿下了30%的分数。

值得关注的是，原始版本的GPT-4开箱即用，完全不经过调优，在本次MIT考试中也拿到了90%的分数。

调优流程，包括Few-Shot+CoT+Self-critique+Experts。

从最终考试成绩的表格数据可以看到，从左到右每增加一个环节，调优后的GPT-4得分都会更上一层楼。

此外，研究团队还在提示框里进行了工程优化，具体的“咒语”如下：

等等，评分人是GPT-4自己？

看到这样的结果，不少网友心生感慨，LLM在数学考试上的进步，未免有些神速了哈。

2年前，AI还在苦苦挣扎小学数学问题。

类似“小明种了5棵柠檬树，每年从每棵树上得到6个柠檬，10年间他总共得到多少柠檬”这种。

去年年初，MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究表示，把数学问题转换成等价的编程问题，就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数，达到MIT本科水平。

学了6门MIT本科基础数学课里随机抽取的例题，6门课程每门随机出25道题，再加上一个ACT水平（美国高考）的数据集里的60道题。

总计210道题，AI全部答对。

不过有人提出，AI达到的“MIT本科水平”，实际是Codex在做语言题而非数学题——

因为当时的评测中，Codex负责读写，并不包括求解。

所以，这一回GPT-4表现奇佳，怎一个妙字了得～

好了，知道你很着急夸它，但你先别着急夸它，因为很快有人发现了一些“诡异”。

主要有2大槽点。

第一个值得质疑一番的，就是OpenAI的训练数据集没有完全公布。

这也就意味着，无法证明数据集中的4550个问题和解决方案，在GPT-4的训练集中不存在。

换句话说，如果GPT-4在预训练阶段已经接触到了这次的考题们，那最终拿下完美得分，就没什么好惊喜的了。

也难怪乎有网友毫不客气地yygq，认定GPT-4拿到这样的结果，一定是数据集已经包含在训练数据里了。

第二个槽点，就是GPT-4最后100%的得分率，似乎哪里不对劲？？？

定睛一看，在论文的第2.6节有一句很关键的点：

团队在数据集上微调开源大模型，“给定问题Q、基本事实解S和LLM答案A，我们使用GPT-4自动对模型响应进行评分”。

实际操作上，就是每个大模型生成这次考试的答案，然后派出GPT-4打分，分值在0-5之间。

所以给GPT-4打出满分的，实际上是GPT-4自己。

啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。

此外，关于要给GPT-4提供“好的提示”，才能让它达到满分成绩，也让许多人抱有微词。

到底什么算“好的提示”呢？似乎无法定义。

甚至有人喊着，应该把这些题丢给MIT数学和EECS的学生去做，并不断给他们“好的提示”，这样人类学生也能拿下100%的吧……

One More Thing

一个小小的彩蛋：

整个测试中，基本上可以在笔记本电脑上部署运行的StableVicuna-13B，也有48%的得分率。

这个成绩，不仅比模型更大的LLaMA-65B高出近10个百分点，就连MIT fine-tuing过后的LLaMA-30B，还要高。

让人不得不陷入一些关于模型规模与能力相关性的思考。

参考链接：[1]https://arxiv.org/abs/2306.08997

[2]https://twitter.com/johnjnay/status/1669687958960586753

[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792

[4]https://twitter.com/emollick/status/1669742473097228292

最近更新

天天热讯:GPT-4满分通过MIT本科数学考试！这套提示词火了

2023-06-17 12:57:26

快讯
世界实时：力诺特玻不超5亿可转债获深交所通过民生证券建功

2023-06-17 12:08:11

快讯
10015学校代码（10015）

2023-06-17 11:22:30

快讯
南京建邺市场监管局组织开展2023年端午节前计量及食品安全专项执法检查

2023-06-17 10:48:58

快讯
世界热文：城市维护建设税教育费附加地方教育附加申报表（城市维护建设税怎么算）

2023-06-17 10:11:28

快讯
福建“龙舟村”传承造船技艺数百年

2023-06-17 09:58:54

快讯
今日热讯：剽悍一只猫｜财富与影响力升级的十大心法

2023-06-17 09:08:59

快讯
根据公务员法,对县处级正职以下的领导成员

2023-06-17 09:01:02

快讯
家有琴童（关于家有琴童介绍）

2023-06-17 08:22:55

快讯
每日播报!燕麦片可以减肥吗_燕麦片一天吃多少合适

2023-06-17 07:53:15

快讯
【天天聚看点】江西单独二孩政策_关于江西单独二孩政策简述

2023-06-17 07:02:21

快讯
播报：用好货币政策工具适度提高涉农贷款风险容忍度

2023-06-17 06:03:00

快讯
环球百事通！低市盈率能保护投资者吗？

2023-06-17 05:46:21

快讯
今日辟谣（2023年6月16日）

2023-06-17 05:07:56

快讯
某牛奶加工厂现有鲜奶9吨以上_某牛奶加工厂现有鲜奶9吨

2023-06-17 02:56:38

快讯
赵继伟的困境加剧，关键原因揭露，外界认可之路艰难

2023-06-17 01:05:24

快讯
如何选择小学英语辅导班_如何选择英语辅导班快消息

2023-06-16 23:59:28

快讯
怪物猎人p3弓箭断尾_怪物猎人p3弓箭

2023-06-16 22:44:24

快讯
无敌是多么寂寞！中国女排豪取六连胜世界快资讯

2023-06-16 22:07:05

快讯
唯品会“618”高潮期开售：品质消费驱动增长，知名品牌带动消费热潮

2023-06-16 21:47:12

快讯
环球快报:国足主场4:0战胜缅甸扬科维奇执教首胜

2023-06-16 21:06:18

快讯
消息！2023年全市中小学幼儿园放暑假时间定了

2023-06-16 20:22:58

快讯
上海滩三大亨的政坛江湖----第三章-天天快播报

2023-06-16 19:48:28

快讯
体育总局与住建部联合开展“国球进社区”“国球进公园”活动-天天聚看点

2023-06-16 19:36:20

快讯
东方日升Intersolar之旅：光伏全场景解决方案惊艳全球

2023-06-16 18:58:54

快讯
鼻中隔偏曲治疗办法鼻中隔偏曲的最佳治疗方法_环球滚动

2023-06-16 18:52:25

快讯
世界最资讯丨“孩子，你是我们的老师”｜2023年全国学前教育宣传月

2023-06-16 18:16:29

快讯
天天微头条丨2023年新能源整车概念龙头股汇总（2023/6/16）

2023-06-16 18:13:02

快讯
在上合青体节，他们伸出友谊的小手-天天消息

2023-06-16 17:56:37

快讯
梅西球迷球鞋搜索量暴涨网友调侃拥抱”梅西只需258元

2023-06-16 17:04:42

快讯
波兰4名医生乘30小时飞机专程赶到上海九院，就为看这台手术天天新动态

2023-06-16 17:10:34

快讯
今日7只基金公告成立

2023-06-16 16:55:20

快讯
即时看！南昆山在哪个省哪个市南昆山在哪个省哪个市区

2023-06-16 16:22:39

快讯
2023保定白石山一日游自驾攻略（附图解）

2023-06-16 16:03:26

快讯
重庆建工：子公司签订巫山县绿色转型发展及新型城镇化PPP项目施工总承包合同_每日热议

2023-06-16 15:47:56

快讯
焦点观察：工业互联网已全面融入45个国民经济大类进入规模发展期

2023-06-16 15:14:15

快讯
北京理想汽车获纯电/增程生产资质规划5款纯电新车|环球报资讯

2023-06-16 15:05:13

快讯
天天即时看！石榴籽的作用与功效避孕_石榴籽的作用与功效

2023-06-16 14:57:28

快讯
播报：中金：维持阅文集团“跑赢行业”评级目标价52港元

2023-06-16 14:06:07

快讯
2023浙江杭州东站枢纽管理委员会编外招聘拟录用人员公示

2023-06-16 13:39:54

快讯
环球热资讯！吴倩官宣退出《乘风2023》因身体不适停工休养中

2023-06-16 13:14:48

快讯
全球滚动:河南省少先队辅导员技能展示在我市圆满结束

2023-06-16 12:57:40

快讯
环球快消息！手绘典礼皇马。2015-2016赛季欧洲足球冠军...

2023-06-16 12:36:15

快讯
日本政府将向丰田EV电池补贴1200亿日元

2023-06-16 12:18:45

快讯
今明两日厦门将迎来暴雨最高气温在27℃左右_全球播报

2023-06-16 11:54:49

快讯
医学小说排行榜前十名_医学小说_世界热点

2023-06-16 11:28:03

快讯
天天观天下！上海合作组织民间友好论坛暨友好城市论坛青岛倡议发布

2023-06-16 11:13:17

快讯
信邦制药：6月15日融资净买入11.17万元，连续3日累计净买入592.42万元|视讯

2023-06-16 11:12:38

快讯
美元和美债收益率走低金价从三个月低点反弹

2023-06-16 10:35:48

快讯
银行信用卡催收如何投诉？信用卡逾期被起诉会影响子女就业吗？环球快消息|环球快报

2023-06-16 10:28:46

快讯
全球今热点：金博股份：6月15日融券卖出1.6万股，融资融券余额9.17亿元

2023-06-16 10:41:26

快讯
冬天刮什么风最多（五菱之光冬天暖风不怎么热的原因是什么？）

2023-06-16 10:09:15

快讯
广末凉子承认出轨后：违约金高达数亿日元！|焦点速递

2023-06-16 09:52:11

快讯
说唱歌手：科比曾告诉我他退役后就去看库里尽管库里那时还很瘦

2023-06-16 09:35:42

快讯
海绵城市会呼吸

2023-06-16 09:16:25

快讯
新动态：范存航_关于范存航的简介

2023-06-16 09:16:32

快讯
栗子相克的食物有哪些粟子不能和什么食物一起吃

2023-06-16 09:01:55

快讯
江苏省东台市市场监管局抽检食品361批次 7批次不合格_当前简讯

2023-06-15 19:18:00

快讯
女子穿迪士尼联名款汉服进迪士尼被拦，网友：虽然不是歧视但很违和！

2023-06-15 18:46:30

快讯
圆桌对话：新能源，为明天而战

2023-06-15 18:19:25

快讯
世界速讯：诺贝尔和平奖演讲稿_诺贝尔和平奖获奖演说精编相关内容简介介绍

2023-06-15 17:58:26

快讯
2023东莞横沥积分入学分数公示名单查询

2023-06-15 17:25:48

快讯
今日视点：12生肖是怎么来的视频_12生肖是怎么来的

2023-06-15 17:00:09

快讯
商务部：推动出台支持恢复和扩大消费的一系列政策措施_视讯

2023-06-15 16:11:18

快讯
全球聚焦：第十届纽迪希亚营养国际学术研讨会召开达能开放科研中心多项本土研究成果公布

2023-06-15 15:38:38

快讯
世界热文：饮酒增加61种疾病风险

2023-06-15 15:12:06

快讯
美国华盛顿州野火蔓延，过火面积超2800公顷

2023-06-15 14:57:16

快讯
全球头条：河北高碑店：电商人才免费培训共谱电商产业发展新篇章

2023-06-15 14:06:29

快讯
今天两位大神良渚相会

2023-06-15 13:36:53

快讯
世界今热点：高产又抗虫！我国科研人员首次揭示植物抗虫分子机制

2023-06-15 12:44:13

快讯
观速讯丨交易猫找回账号后果很严重（经常打猫的后果严重）

2023-06-15 12:00:18

快讯
快讯：宝信软件涨停报于50.22元

2023-06-15 12:00:55

快讯
文明之光点燃亚运之火杭州亚运会火种今天在良渚古城遗址成功采集

2023-06-15 11:02:03

快讯
星云股份（300648）：技术指标出现看涨信号-KDJ 低位金叉（06-15）-当前独家

2023-06-15 10:41:31

快讯
钧达股份6月15日盘中涨幅达5% 世界观焦点

2023-06-15 10:23:31

快讯
6u标准机柜尺寸是多少 6u机柜尺寸是多少每日头条

2023-06-15 10:02:38

快讯
世界速递！山东航空发布提示：近日有不法分子冒充航司人员以航班发生变动为由诈骗

2023-06-15 09:50:57

快讯
八珍汤标准配方是啥_关于八珍汤配方介绍

2023-06-15 09:00:01

快讯
全球新消息丨清华领衔造“眼”巡天，宽视场巡天望远镜筹建获突破性进展

2023-06-15 08:36:20

快讯
economic modelling

2023-06-15 08:01:33

快讯
游瀛湖赏茶山感受美丽乡村

2023-06-15 06:50:54

快讯
去年全国结婚人数创37年来新低！两大央行意外加息！

2023-06-15 06:06:23

快讯
天天最资讯丨闪翼双星为什么没有后续（闪翼双星2）

2023-06-15 04:16:42

快讯
消防水带有年限要求吗_消防水带使用年限有明确规定吗

2023-06-15 01:50:51

快讯
邹平市人民法院：出借银行账户给他人用于付款，买卖合同纠纷中账户出借人是否应承担连带还款责任？|世界讯息

2023-06-14 23:16:40

快讯
Lumix S5M2系列相机固件升级增两RAW格式|焦点资讯

2023-06-14 22:02:42

快讯
中钢协何文波：现在各方正在筹划基石计划2.0

2023-06-14 21:03:59

快讯
柳沁雯6.14黄金短线震荡模式依旧，稳住！最新走势解析-每日聚焦

2023-06-14 20:35:22

快讯
长沙南站到黄花机场怎么去_长沙南站到黄花机场

2023-06-14 19:45:43

快讯
世界今头条！天猫健康发起“不扎手指行动”，开设动态血糖仪免费试用通道

2023-06-14 19:00:21

快讯
LP江湖迎来“水泥一哥” 产业生态成为重要投资壁垒

2023-06-14 18:18:01

快讯
环球今日讯！脸上起疹子是怎么回事_脸上起疹子怎么回事

2023-06-14 17:44:47

快讯
一级结构工程师培训机构哪个好一级结构工程师招聘

2023-06-14 17:17:28

快讯
全球新动态：十二星座恋爱配对视频_十二星座恋爱配对

2023-06-14 16:53:12

快讯
春雪食品相关基地上榜国家骨干冷链物流基地建设名单|世界短讯

2023-06-14 16:28:30

快讯
东英语分别怎么读_东英语

2023-06-14 15:54:04

快讯
全球观焦点：阿莱德：接受首创证券等机构调研

2023-06-14 15:15:58

快讯
短讯！父亲节送礼不用愁逛京东618买洗碗机、剃须刀、茶具等家电家居产品更划算

2023-06-14 15:03:41

快讯
flash软件官方下载（flash软件官网当前速读

2023-06-14 14:19:00

快讯
2023四川省会计信息采集入口

2023-06-14 13:20:45

快讯

天天热讯:GPT-4满分通过MIT本科数学考试！这套提示词火了

推荐内容

最近更新