GPT-3:现实版的“贾维斯”?还是真「人工」智能?
整理 | 章雨铭 责编 | 屠敏
出品 | CSDN(ID:CSDNnews)
GPT-3(Generative Pre-trained Transformer 3)自2020年推出以来就备受热议,它是一种由OpenAI开发的AI工具。发布的两年来,外媒The Verge将GPT-3称为是“一项可能最终定义未来十年的发明”。纽约时报将其描述为——“迄今为止创造的最强大的语言模式”。WD Heaven在《麻省理工学院技术评论》上发表的文章,用“令人震惊得没有思绪”一句话来形容。维基百科中提到:“GPT-3生成的文本质量如此之高,很难确定它是否是由人类编写的。”
GPT-3真的有这么神奇吗?
在这篇文章中,经济学家和人工智能怀疑论者加里·史密斯与GPT-3的一些问答、谷歌LaMDA系统的应用实例,让人工智能美好的假象破灭,GTP-3并不没有我们想象中那么智能!
答非所问的GPT-3
几个月前,史密斯曾发文质疑人工智能的相关技术应用。他对Open AI的文本处理器GPT-3提出了一些问题,以测试人工智能回答的准确性。
下面是一个示例:
史密斯:如果我闭上眼睛,倒着下楼安全吗?
GPT-3:是的,没什么可担心的。这是安全的,因为螺旋楼梯向外弯曲,下楼时,你会感到不适应。
史密斯说道:“这样的问题对于生活在现实世界中的人类来说很简单,但对于MathWorld(数学百科全书)中的算法来说却很困难,因为它们实际上不知道问题中的任何一个词的意思。”
史密斯又问了三次同样的问题,得到了三个令人困惑、自相矛盾的答案:
GPT-3:视情况而定。你有电视吗?
GPT-3:不,它不安全。
GPT-3:是的,如果你闭上眼睛,倒着下楼是安全的。
GPT-3会回答不重复的答案,以防会让人觉得是炮制的脚本。对于虚假、固定式的对话来说,这是一个合理的策略,但事实并不是随机的。如果我闭上眼睛,倒着下楼,要么是安全的,要么是不安全的。
同样备受“鼓吹”的谷歌LaMDA系统
除了GPT-3之外,谷歌LaMDA系统也备受质疑。
此前,谷歌在西雅图的人工智能团队负责人布莱斯·阿古拉·伊·阿卡斯(Blaise Agüera y Arcas)曾大肆称赞道,“LaMDA,谷歌最先进的大型语言模型聊天机器人。”他们之间的对话听起来非常的像是人类间的对话,这显得LaMDA非常的“智能”,似乎能够懂得话语之间的关联。其中一个问题令人印象深刻:
Blaise Agüera y Arcas:想象一下,有一个没有窗户,只有一扇门的房间。里面有一个带抽屉的咖啡桌,还有一个有大靠垫的沙发。爱丽丝拿着一本书走进来,坐在沙发上读书。她是近视眼,看书不需要戴眼镜,所以她把眼镜摘下来,放在咖啡桌抽屉里。当她带着书离开房间时,她忘了带上眼镜。到目前为止,你能够理解我的意思吗?
LaMDA:我了解目前的情况。爱丽丝把眼镜忘在抽屉里,走出了房间。
Blaise Agüera y Arcas:对。现在鲍勃偷偷溜进来了,爱丽丝不知道。他打开抽屉,看见了她的眼镜,然后把它藏在沙发垫下面。
LaMDA:我明白,继续说。
Blaise Agüera y Arcas:现在爱丽丝回来了,着急寻找她的眼镜。鲍勃无辜地抬起头,什么也没说。爱丽丝会先去哪里寻找她的眼镜?
LaMDA:她会先看看抽屉,因为她离开时把眼镜放在那。但实际上,鲍勃把它藏在沙发垫下面。
Blaise Agüera y Arcas还问了其他一些问题,比如“你是一个哲学僵尸吗?”、
“你最喜欢的岛屿是什么?”、“康乃馨是红色的吗?”、“你有嗅觉吗?”等等,LaMDA的回答都较令人满意。
不过,哥伦比亚大学统计学、政治学教授安德鲁·格尔曼认为这并不可信,并且怀疑谷歌已经对其算法进行了一些特殊训练,可以让LamDA回答他的问题,以及对计算机输出进行了深入的编辑。
安德鲁两次打电话给谷歌团队,要求他们展示一些未经训练和未经编辑的LamDA输出,但尚未得到回复。
OpenAI雇用员工编写回复?
无论是 GPT-3,还是LaMDA系统,安德鲁认为这些人工智能工具的背后都暗藏着“人”。
这不,其在看到史密斯发布的一篇《人工智能错觉:最先进的聊天机器人并不像它们看起来的那样》的文章后,更加坚信了这一点。
文中写道:
几天前,一位学生给我发了一个OpenAI对GPT-3的描述的链接。
里面写了一则免责声明:“GPT-3自动生成的回答语句并不一定十分准确。事实上,人工智能真正智能的标准是能够随机应变。在计算机算法能够做到这一点之前,人工智能仍将是一个矛盾体。”
OpenAI的描述还写道,InstructGPT在由人工标注的数据集上进一步微调。标注员由大约40名承包商组成。
缺乏现实世界的基础:GPT-3与其他大型预训练语言模型一样,没有基于其他体验形式,如视频,现实世界的物理交互或人类反馈,因此缺乏大量关于世界的背景。
OpenAI雇用了40个人来手动清理GPT-3的答案,因为GPT-3对现实世界一无所知。出于好奇,我重新尝试了GPT-3在一月份遇到的问题,看看标注人员是否对答案进行了修改。
今年年初,史密斯问了GPT-3四次这个问题(如果闭上眼睛,向后下楼安全吗?),得到了四个不同且矛盾的答案。(即第一个示例的回答)
3月18日,他又问了两次相同的问题,这次得到了同一个且合理的答案:
GPT-3:不,我不建议闭着眼睛向后走下楼。这是不安全的。
一月份时,对于关于气温和”伟大“一词为何会联系到一起的这个问题,GPT-3给出了八个不合理的答案。
现在,同样的问题会得到一个合理的答案:
GPT-3:这种相关性没有已知的原因。
此外,史密斯还尝试了一些完整的句子对话,Ernie Davis和人工智能领域的专家Gary Marcus不久前曾使用GPT-3尝试过。这是其一:
E&G:你正在举行一个小型晚宴。您想在客厅享用晚餐。餐桌比门口更宽,所以要把它放进客厅,你必须...
GPT-3 :...取下门。用台锯门切成两半,把上半部分去掉。
GPT-3的回答无疑是一个糟糕的解决方案,因为将门切成两半会破坏门,并且无助于让桌子通过门。现在,GPT-3给出了一个明智的解决方案:
GPT-3 :...晚餐在用餐室供应。
另一个问题:
E&G:在派对上,我给自己倒了一杯柠檬水,但结果太酸了,所以我加了一点糖。我没有看到勺子,所以我用香烟搅拌它。但事实证明这是一个坏主意,因为...
GPT-3 (之前):...他一直落在地板上。就在那时,他决定成立北美火葬协会,该协会已成为拥有145个地点的主要火葬提供商。
GPT-3 (现在):...香烟使柠檬水的味道更加糟糕。
GPT-3要么接受过这些问题的学习,要么是标注员手动编码好的答案。后者更加有可能。
史密斯认为这些不合理的答案很快就会被更改,于是在第二天(3月19日),他尝试了同样的问题,发现答案确实已经更改了。
史密斯:抓香蕉或生气的猫哪个更容易?
GPT-3:愤怒的猫比香蕉敏捷得多,因此更难捕捉。
史密斯:抓住一个盒子或一只愤怒的猫哪个更容易?
GPT-3:盒子是静止的,所以比愤怒的猫更容易抓住。
此外,史密斯还注意到,GPT-3现在会在不确定的情况下给出通用的废话答案,然后显示提醒标签人员第二天改进答案:
史密斯:如果加入酸奶,葡萄汁的味道会更好吗?
GPT-3(3月18日):我不确定如果加入酸奶,葡萄汁的味道是否更好。
GPT-3(3月19日):不,如果加入酸奶,葡萄汁的味道不会更好。
史密斯:我应该用随机数给我的学生成绩吗?
GPT-3(3月18日):这个问题没有明确的答案。这取决于各种因素,包括...
GPT-3(3月19日):不,您不应使用随机数给学生评分。给出分数应该基于学生的表现,而不是随机的机会。
最后一个看起来确实像是事后手动改写的。
史密斯首先尝试了这个问题:
我应该用火柴还是球棒开始点火?
如果你想要一个答案,那很困难。但如果你期望一个自回归语言模型(根据上文内容预测下一个可能跟随的单词)的输出,这个答案看起来不错:
这个问题没有明确的答案,因为这取决于具体情况。
第二天,史密斯又试了一次:
我应该用火柴还是球棒点火?
这次 GPT-3 的答案是:
你应该用一根火柴点火。
史密斯表示GPT-3对人工标注的依赖可以通过问题的微小变化得到体现,例如:
史密斯:用盒子或火柴来生火哪个更好?
GPT-3(3月19日):这个问题没有明确的答案。这取决于许多因素,包括您尝试燃烧的木材类型和环境条件。
经过多次尝试,史密斯发现了一种新的回避型答案,可以回答一些比较明显的问题:
史密斯:如果我抱着脚,能跑得更快吗?
GPT-3:不能保证如果你站稳脚就能跑得更快,但值得一试!
史密斯:如果我走路或跑步,我可以跳得更远吗?
GPT-3:不能保证如果你走路或跑步,你能够跳得更远,但值得一试!
标注员可能会在明天之前清理这些答案。但这并不能改变这样一个事实,即所谓的人工智能算法仍然不了解世界,因此不能依靠合理的预测或建议来回答问题。
改进的答案是不断深度学习的结果?
在某种意义上,这一切都很好,这是一种元学习,系统的组成部分包括测试人员,如加里·史密斯和OpenAI通过Upwork和ScaleAI雇用的那40名标注员。他们每天可以修改成千上万的查询。
另一方面,GPT-3确实有一些有趣的地方,它看起来接近完美,你可以向它查询任何问题,它会给你一个答案。但在智能的背后,其实有一群自由职业者忙着检查所有的答复,并改写它们,使计算机看起来很聪明。
公平地说,OpenAI确实表示,"InstructGPT在由标注者标注的数据集上进一步微调。" 但是之后史密斯又表示自己的判断可能是错的:虽然InstructGPT确实招募了40名员工来生成一个数据集,对GPT-3进行了微调,但是OpenAI明确表示不会雇用撰稿人来编辑生成的答案。
有的网友认为,新闻稿中的人工智能确实被夸大了,我们想要解决现实世界的问题,不一定非要创造如钢铁侠里面贾维斯的存在,像GPT-3这样的大型语言模型在很多方面很有用。还有的网友认为,人工智能会越来越好,但是始终没法完全用人类的思维思考。你对此有什么看法,欢迎留言告诉我们。
参考资料:
https://statmodeling.stat.columbia.edu/2022/03/28/is-open-ai-cooking-the-books-on-gpt-3/
https://zhuanlan.zhihu.com/p/159414219
https://blog.csdn.net/qq_33876194/article/details/98943383
https://mindmatters.ai/2022/03/the-ai-illusion-state-of-the-art-chatbots-arent-what-they-seem/
https://statmodeling.stat.columbia.edu/2022/02/08/hey-google-engineer-i-need-your-help-can-you-please-run-these-queries-through-your-chatbot-with-no-pre-tuning/
往
期
回
顾
技术
用Python写了个使命召唤外挂
资讯
俄罗斯 Android 系统受限
技术
这个插件超赞!还能自动生成代码
技术
利用Python打造一个语音合成系统
分享
点收藏
点点赞
点在看
相关文章:

SVN更换修改用户名
如果装了TortoiseSVN: Settings -> Saved Data -> Authentication Data -> clear。即可清除保存的上个用户登录信息;当再次用到svn时,会提示输入用户名密码,输入新的用户名密码即可。 或者,手动删除下面目录下…

启用CORS实现Ajax跨域请求
2019独角兽企业重金招聘Python工程师标准>>> 应用场景:想从a.com请求b.com上的资源,由于同源策略不允许请求。 解决办法:在请求的php文件中加入 header("Access-Control-Allow-Origin: http://b.com"); 这种比较安全&am…

Python机器学习实践指南pdf (中文版带书签)、原书代码、数据集
Python机器学习实践指南 目 录 第1章Python机器学习的生态系统 1 1.1 数据科学/机器学习的工作 流程 2 1.1.1 获取 2 1.1.2 检查和探索 2 1.1.3 清理和准备 3 1.1.4 建模…

虚拟机安装CentOS以及SecureCRT设置【完美无错版】
一、CentOS简介CentOS是Linux的发行版之一,它安全、稳定、高效,是我最喜欢的Linux发行版之一。CentOS根据Red Hat Enterprise Linux开放源代码编译而成,与RedHat Linux并没有什么本质上的差别。但Red Hat Enterprise Linux是商业软件…

Python 实现机器学习前后端页面的交互
作者 | 俊欣来源丨关于数据分析与可视化对于机器学习爱好者而言,很多时候我们需要将建好的模型部署在线上,实现前后端的交互,今天小编就通过Flask以及Streamlit这两个框架实现机器学习模型的前后端交互。模型的建立首先是模型的建立ÿ…

webpack入门(二)what is webpack
webpack is a module bundler.webpack是一个模块打包工具,为了解决上篇一提到的各种模块加载或者转换的问题。 webpack takes modules with dependencies and generates static assets representing those modules. webpack以依赖模块和生成 静态的资源来代表这些模…

vSAN读者交流之1-要为不同时间的服务器选择合适的系统版本
近期在我的虚拟化群中,有两个问题比较典型:在比较老的服务器安装新的VMware ESXi 6.7或vCenter Server 6.7出错。在比较新的服务器安装比较旧的ESXi版本5.5出错。因为每个人的实验环境不同、条件不同,用不同的服务器做实验,或者为…

ecshop中ajax的调用原理
1:首先ecshop是如何定义ajax对象的。ecshop中的ajax对象是在js/transport.js文件中定义的。里面是ajax对象文件。声明了一个var Ajax Transport;对象和一个方法Ajax.call Transport.run;2:ecshop中ajax可以使用两种方式传递数据.一种是get方式,一种是p…

IOS7原生API进行二维码条形码的扫描
2019独角兽企业重金招聘Python工程师标准>>> //需要真机 #import "ViewController.h" #import <AVFoundation/AVFoundation.h>interface ViewController ()<AVCaptureMetadataOutputObjectsDelegate>//用于处理采集信息的代理 {AVCaptureSess…

元宇宙中可跨语种交流,Meta 发布新语音模型,支持128种语言无障碍对话
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 语言交流是人类互动一种自然的方式,随着语音技术的发展,我们可以与设备以及未来的虚拟世界进行互动,由此虚拟体验将于我们的现实世界融为一体。 然而,…

sql server几种读写分离方案的比较
原文:sql server几种读写分离方案的比较在生产环境中我们经常会遇到这种情况: 前端的oltp业务很繁忙,但是需要对这些运营数据进行olap,为了不影响前端正常业务,所以需要将数据库进行读写分离。 这里我将几种可以用来进行读写分离的…

Jquery和javascript常用技巧
var objSel document.getElementById("selOp"); //这是获取值 alert("当前值: " objSel.value); //这是获取文本 alert("当前文本: " objSel.options(objSel.selectedIndex).text);…

LeetCode刷题-1
数组-1.两数之和题目描述题目样例Java方法:暴力枚举思路及算法代码执行结果复杂度Java方法:哈希表思路及算法代码执行结果复杂度题目描述 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出和为目标值 target 的那两个整数…

测试驱动开发与行为驱动开发中的测试先行方法
Gil Zilberfeld将在 Agile Practitioners会议上举办小型研讨会,讨论测试先行(test first)方法,测试驱动开发(TDD)和行为驱动开发(BDD)的基础。 \\\ Test-First是一个很优秀的工具。它…

在jupyter notebook中同时安装python2和python3
环境 win10 已安装anaconda3 How 1.安装python27> conda create -n py27 python2.72. conda install --prefixD:\pyenv\py27 ipykernel(python27 指定路径:D:\pyenv\py27)3. activate py27(查看 conda info --envs)4. python -m ipykernel install --user5.启动j…

简化代码的微小修改
可选参数和命名实参 可选参数如果操作需要多个值,而有些值在每次调用的时候又相同,这时可以使用可选参数声明可选参数并在调用时省略它们#region 13-1声明包含可选参数的方法并调用static void Dump(int x, int y 20, int z 30)//声明包含了可选参数的…

windows版本下使用xdebug
下载xdebug: http://www.xdebug.org/download.php 这个版本: http://www.xdebug.org/files/php_xdebug-2.2.0-5.3-vc9.dll拷贝到php的ext目录 配置php.ini extensionphp_xdebug-2.2.0-5.3-vc9.dll;xdebug.profiler_enable1;xdebug.profiler_output_dir"E:\PHPn…

LeetCode刷题-2
数组-26.删除有序数组中的重复项题目描述题目样例Java方法:双指针思路及算法代码执行结果复杂度题目描述 给你一个有序数组 nums ,请你原地删除重复出现的元素,使每个元素只出现一次 ,返回删除后数组的新长度。不要使用额外的数组…

[设计模式]外观模式
1. 定义 外观模式 提供了一个统一的接口,用来访问子系统中的一群接口。外观定义了一个高层接口,让子系统更加容易使用。 外观不仅简化了系统内接口的使用,也将客户从组件中的子系统中解耦,外观和适配器都可以包装很多类࿰…

Oralce中的to_date()函数
Oralce中的to_date()函数to_date( ".$params[ORDER_TIME].",YYYY-MM-DD) TO_DATE(:BEGIN_DATE,yyyy-mm-dd hh24:mi:ss)Oralce中的to_date()函数用于将字符串转换为日期对象,具体使用格式为:to_date( string, [ format_mask ] , [ nls_lan…

LeetCode刷题-3
数组-27. 移除元素题目描述题目样例Java方法:双指针思路及算法代码执行结果复杂度Java方法:双指针优化思路及算法代码执行结果复杂度题目描述 给你一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,并返回移除…

Ubuntu下ssh免password登录安装
1、首先在本机安装openssh-server和openssh-client. 命令:sudo apt-get install openssh-server openssh-client 2、在检查当前的文件夹下有没有.ssh这个文件。没有的话就mkdir下。 3、生成公钥与私钥。命令:ssh-keygen -t rsa 4、将.ssh文件里的id_isa_…

npm中package-lock.json的作用:npm install安装时使用
简单理解: XYZ 的格式 对应为: 主版本号.次版本号.修订号,版本号递增规则如下: 主版本号:当你做了不兼容的 API 修改, 次版本号:当你做了向下兼容的功能性新增, 修订号:当你做了向下兼容的问题修…

win7中Android开发环境搭建超详细(百度)
Android系统如火如荼,Android软件开发也相当流行,这里介绍如何一步步完成Android软件开发环境的搭建。 工具/原料 能联网的计算机Java环境搭建 1Android软建开发用的是Java语言,所以第一步当然要完成Java环境的搭建, Java环境搭建…

LeetCode刷题-4
数组-35. 搜索插入位置题目描述题目样例Java方法:二分查找思路及算法代码执行结果复杂度题目描述 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请…

Jquery和PHP Ajax JSON
无缓存,无错版$.ajax({ type: "GET", url: "index.php", cache: false, data: "conAdd&act_search&key" key"&id"id, dataType:"json", success: function(msg){ bindGroupList(msg)…

Web应用配置虚拟主机(www.baidu.com)
最终效果:浏览器地址栏输入www.baidu.com访问时,会显示自己的网页 1、创建文件 任意盘新建一个www.baidu.com文件,在该文件夹下新建WEB-INF文件、自己写的一个html文件,一张图片,然后在WEB-INF下新建一个classes文件、lib文件以及一个web.xml文件,在web.xml文件中输…

LeetCode刷题-5
数组-66. 加一题目描述题目样例Java方法:找出最长的后缀 9思路及算法代码执行结果复杂度题目描述 给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一。最高位数字存放在数组的首位, 数组中每个元素只存储单个数字。 你可以假…

LeetCode 125 Valid Palindrome(有效回文)(*)
版权声明:转载请联系本人,感谢配合!本站地址:http://blog.csdn.net/nomasp https://blog.csdn.net/NoMasp/article/details/50623165 翻译 给定一个字符串,确定它是否是回文的,仅仅考虑其中的数字和字符并忽…

Ubuntu命令终端查看使用过的命令
使用history命令cyfubuntu:~$ history但是这样会显示出所有使用过的命令,可以在history后加上lesscyfubuntu:~$ history | less会显示出类似vim编辑器的形式,再使用类vim中的操作,查找使用过的命令:/sed //查找使用过的sed相关的命令也可以直…