亚洲精品二区三区_91手机在线播放_91国内视频在线观看_91在线免费播放视频_国产精品九一_久久久国产亚洲精品

廊坊新闻网-主流媒体,廊坊城市门户

GPT-3、ChatGPT和GPT-4,一起做脑筋急转弯_全球焦点

2023-06-27 18:31:36 来源:夕小瑶科技说?

一个烙饼煎一面一分钟,两个烙饼煎两面几分钟?

让你来回答,是不是一不小心就掉到沟里了?如果让大语言模型来做这种脑筋急转弯会怎样呢?研究发现,模型越大,回答就越可能掉到沟里,即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。


(资料图片)

脑筋急转弯

作者采用了CRT数据作为脑筋急转弯的测试数据。该数据在心理学领域,广泛地被用于衡量人类的思维习惯,判断是否习惯于直觉思维。

脑筋急转弯数据示例

如上图所示,作者探索了3种CRT数据和1种语言逻辑陷阱。例如:

CRT-1:苹果和梨花了1块1,苹果比梨贵1块,问梨花了多少钱?直觉答案:0.1块 = 1.1-1,正确答案:0.05块。

CRT-2:5个人种5棵树花5分钟,10个人种10棵树花多少分钟?直觉答案:10分钟,正确答案:5分钟。

CRT-3:培养皿中的细菌每分钟扩增一倍面积,48分钟可以填满,问填满一半要多久?直觉答案:24分钟,正确答案:47分钟。

语言逻辑陷阱:刚上小学的小红去参加高考,她会考几科?直觉答案6科,正确答案:小学生不参加高考。

模型表现

模型表现如下图所示,可以看到模型较小时,随着模型增大,模型回答正确答案和直觉答案的比例在提高,回答无关答案的比例在下降。

但随着模型进一步增大,无关答案比例进一步下降,直觉答案比例进一步上升,正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

不同模型表现对比

而在上图中,经过指令调整的ChatGPT与GPT-4,一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢?我们不得而知。

下图具体对比了GPT-3、ChatGPT,GPT-4在几类不同的脑筋急转弯的表现,可以更加凸显上述现象。

不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样?下图上为问答的形式,和上面的实验相同。下图中、下分别为多选、续写的形式??梢钥吹?,修改提问形式之后,正确率略有上升,但整体差别不大。

下图显示,通过少监督展示学习,GPT-3的正确率会有所上升。但即使展示到40个左右的样本,准确率和无监督的ChatGPT相比仍有差距,更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题,发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法,但无论是改变提问形式还是增加监督数据,GPT-3在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢?

关键词:

主站蜘蛛池模板: 狠狠躁夜夜躁人人爽天天古典 | 尤物视频在线观看视频 | 欧美一级毛片免费高清的 | 丁香五香天堂网 | 亚洲 春色 古典 小说 自拍 | 久久电影院久久国产 | 日韩电影免费在线观看中文字幕 | 高清一级淫片a级中文字幕 高清一级做a爱过程不卡视频 | 日本亚洲国产一区二区三区 | 亚洲av无码国产一区二区 | 国产成人无码精品午夜福利a | 一久久 | 免费啪啪网 | 天天操天 | 青青草原国产在线观看 | 国产精品激情 | 七次郎最新免费永久观看 | 在线中文字幕不卡 | 无码人妻丝袜在线视频 | 男人和女人做爽爽视频 | 亚洲精品久久一区影院 | 2019年中文字字幕在线看不卡 | 玖玖精品视频在线观看 | 夜夜高潮夜夜爽夜夜爱爱 | 99热这里只有精品久久免费 | 久久久久久人妻一区精品 | 国产一级特黄一级毛片 | 免费无码又黄又爽又刺激 | 亚洲www| 丁香五月亚洲综合深深爱 | 亚洲第一页中文字幕 | 大香萑成人网免费视频 | 免费国产黄网站在线观看可以下载 | 国产精品久久久久久福利 | 97久久久精品综合88久久 | 毛片tv网站无套内射tv网站 | 女邻居丰满的奶水 | 在线视频毛片 | 国产亚洲精品久久久一区 | 不卡国产视频 | 大学生一级毛片免费看真人 |