谷歌Bard被曝剽窃ChatGPT?BERT一作跳槽OpenAI,揭惊天内幕(组图)
【导读】谷歌有大麻烦了!外媒爆料说,Bard的训练数据部分来自ChatGPT。谷歌可能跳到黄河里也洗不清了。
3月29日,外媒The Information曝出了一个惊天大瓜!
谷歌的离职员工、已跳槽OpenAI的顶级研究员竟然曝出——Bard竟是用ChatGPT的数据训练的!
如果事情为真,这可真算得上是谷歌的顶级丑闻了。
对抗ChatGPT的AI,竟然用的是ChatGPT的训练数据,这可太讽刺了。
并且,这也明显违反了OpenAI的服务条款——要知道,微软拥有将ChatGPT用于商业目的的独家许可,谷歌因此很可能要吃官司。
训练Bard,谷歌竟「借用」了ChatGPT的数据?
Jacob Devlin这个名字,可谓如雷贯耳。谷歌在2018年发表的BERT模型的论文,Devlin就是一作。
正是这篇论文,引发学术界AI研究的热潮。而Devlin的研究,可以说为谷歌和OpenAI的语言模型奠定了很大的基础。
论文地址:https://arxiv.org/pdf/1810.04805.pdf
虽然Devlin跳槽到OpenAI,是今年1月的事,我们很早就知道了。
但是Bard用ChatGPT数据训练的事,却是最近才曝出。
根据The Information的报道,Devlin从谷歌离职的原因之一,就是他发现谷歌用于对抗ChatGPT的种子选手——Bard在训练时,用的正是ChatGPT的数据。
他警告了CEO劈柴和其他高管,告诉他们Bard团队正在使用来自ShareGPT的信息训练,随后辞职。
爆料一发出,业界人士们都炸了。
有网友评论道:「这可是业内大忌啊。」
而当事人之一、ShareGPT的创建人Steven Tey表示,其实自己早就知道这个事了,并且此事早就在谷歌内部传开,许多员工对此很不满,很担忧。
随后,他又发帖说,这下,猫可从口袋里跑出来了吧。(谚语,指无意间泄密)
这也是为什么我们上周关闭了ShareGPT的Explore页面,其中有超112k的共享对话数据。
太疯狂了!
其实是个「套壳」ChatGPT?
ShareGPT,是Steven Tey和Dom Eccleston在2022年12月共同创建的一个Chrome扩展,能够捕捉和分享人们在ChatGPT中的对话内容。
通过捕获他人与ChatGPT的完整对话,ShareGPT能生成一个URL。通过这个扩展,人们可以直接分享URL,省去了截取多个对话截图的时间。
也就是说,如果用ShareGPT的信息训练Bard,很可能把Bard训练成一个「翻版ChatGPT」。
据内部人士透露,Devlin发出警告后,谷歌立马停止了利用这些数据来训练Bard。
但在外媒The Verge就该事件询问谷歌发言人Chris Pappas时,他却否认了。
他很肯定地说,「Bard的训练没有使用任何来自ShareGPT或ChatGPT的数据。」
到底用没用呢?此事目前还是个罗生门。
有意思是,OpenAI此前就经常陷入争议,许多网站和艺术家指控ChatGPT是从自己这里窃取的数据。
而今天,这是第一次有人指控别的公司从ChatGPT窃取数据。
就是说,贵圈真的是个圈。
谷歌的反击,有些狼狈
此前,大火的ChatGPT整合进必应中,已经导致了谷歌的股价下跌。
搜索巨头地位被撼动的谷歌,正在不顾一切地迎头追赶。
结果Bard在发布会上当场出错,让谷歌沦为笑柄,市值蒸发1000亿。
遮遮掩掩了一个多月,Bard终于正式开放。大家使用后发现,Bard正确率不算高,写代码也不太行,比起ChatGPT来,要更拉跨一些。
而最关键的问题其实是,Bard已经晚了一步。即使正式发布,媒体和坊间都反响了了,似乎无人在意。
而Devlin离职谷歌、加入OpenAI的选择,更是寓意深刻——既然谷歌如此严重依赖ShareGPT,那大神就干脆加入OpenAI,不用中间商。
而更严重的是,微软拥有将ChatGPT用于商业目的的独家许可。
因此,Devlin担心谷歌以这种方式使用数据,违反了OpenAI的服务条款。如果此事得到证实,谷歌很可能面临诉讼。
当然,OpenAI也并不清白。训练ChatGPT的数据,也是从公共互联网上「借用」的。这些内容,其实也未经艺术家、作家、摄像师等人类创作者的许可。
虽然微软最近确实宣布了一些补偿计划,要补偿为Bing Chat的答案做出贡献的内容创作者。
但说到底,无论是谷歌还是微软,它们唯一真正关心的事情,还是股东的利润。
谷歌大脑和DeepMind联姻
而The Information的报道中除了有上面那个大瓜,还有另一个瓜。
ChatGPT自去年11月ChatGPT爆火之后,谷歌和OpenAI之间的军备竞赛,就日益剑拔弩张。
现在,为了对抗ChatGPT,谷歌的两个最强「大脑」——DeepMind和Google Brain,已经选择了强强联手。
据两位知情人士透露,DeepMind和Google Brain最近几周正在开发与OpenAI竞争的另一产品,内部代号为Gemini(双子座)。
Sundar Pichai、Demis Hassabis和Jef Dean(从左起)
自谷歌2014年收购DeepMind以来,DeepMind先后发布了几款令人世人惊艳的人工智能,比如AlphaGO、AlphaCode、AlphaFold。可以说,风头远远超过了谷歌。
自ChatGPT发布后,谷歌大脑时不时更新一些进展,然而DeepMind一直还公布近来的大动作。
而现在,Alphabet这两个人工智能实验室的员工都认为,OpenAI已经远远超越了他们。再加上,许多关键工程师和研究人员纷纷流向OpenAI,让谷歌内部人士纷纷堪忧。
加上上周Bard向部分用户开放后,表现又比不上ChatGPT。
眼看自己亲手培养的孩子Bard不如人意,谷歌研究人员干脆再要一个,目标是要能与GPT-4一战。
由此看来,Gemini(双子座)重要性不言而喻。
其中一位知情人士表示,谷歌大脑的负责人、谷歌资深人工智能研究主管Jef Dean已经在该项目中都自己手动敲代码了。
可以说,Gemini的诞生是被迫联姻的孩子。因为,此前DeepMind和Google Brain这两个实验室很少相互合作或共享计算机代码。
一位知情人士表示,但现在,由于双方都希望开发自己的机器学习模型,以与OpenAI竞争,而且需要大量的计算能力。因此他们别无选择,只能合作。
如今,这一努力让谷歌在搜索和云方面等无数团队的产品路线,因ChatGPT的竞争而受到了动摇。
没钱赚,Google Assistant重组
这不,就在近日,Google Assistant部门面临重组,以专注研发Bard。
在给员工的一份备忘录「Changes to Assistant and Bard teams」中,列出了许多高管变动。
一位Google Assistant工程副总裁Amar Subramanya现在将领导Bard。而另一位工程副总毛建昌「因个人原因」离开了谷歌,谷歌商务部门副总裁Peeyush Ranjan成为了接盘者。
Google Assistant业务部门副总裁兼负责人Sissie Hsiao在这份备忘录中称,「鉴于Bard团队的不懈努力,我们希望继续支持并执行未来研究项目。」
这听起来像Assistant团队现在支持谷歌以对抗ChatGPT「红色代码」的战斗。
Google Assistant注定是失败了吗?其实,越来越多的证据表明该部门正在走下坡路:
从2016年到2021年,Google Assistant在五年内发布了八个主要的扬声器/智能显示器硬件,但硬件发布似乎已经停止。上一次硬件发布是在2021年3月。那是整整两年前的事了。
2022年,谷歌从两个内部产品线中移除了Assistant支持:Nest Wi-Fi和Fitbit可穿戴设备。
2022年还看到了The Information的一份报告,该报告称谷歌希望「减少投资开发其用于汽车和非谷歌制造的设备的Google Assistant语音辅助搜索」。
Google Assistant的驾驶模式于2022年关闭。
Google Assistant的「Duplex on the web」功能也于2022年关闭。
Google Assistant的一项核心独特功能Reminders即将被关闭,取而代之的是Google Task Reminders。
Google Assistant从来没有赚钱过。硬件以成本价出售,没有广告,而且没有人支付月费来使用 Google 助理。处理所有这些语音命令的服务器成本也很高,尽管一些较新的设备已经以隐蔽的成本削减举措转移到设备上处理。Assistant 最大的竞争对手亚马逊 Alexa 也处于同一条船上,每年亏损100亿美元。
从Google Assistant这些年的发展也可以看出,谷歌的运作方式真的太封建了。
这家公司似乎有一种约定俗成的观点,即让项目在现有产品(如地图或助手)的支持下运转,才是一种可靠的挣钱方式。
因此,尽管公司里已经囤积了许多世界上最优秀的AI研究人员,但他们的才能似乎只能受困于企业战略的轨道。
在Bard之前,谷歌这些年在AI市场化上的进步,无非就是不断改进Google Assistant等一些小玩意,用AI做一些边角料。
这样一个巨头,本应是顺应趋势、推动潮流、搅动世界的。
网友评论
此事一出,已经有网友放言:那咱们都算是谷歌Bard的联合创始人了,赶紧写到简历里。
「这一场公关战,谷歌是真的输了……」