OpenAI推出最新大模子,你的快乐悲痛它都能读懂-外盘期货
市场头条 发布时间:2024-05-14 11:03:00 来源:https://ii-iv.com 阅读次数:
摘要: 若是说黄仁勋(Jensen Huang)是科技届的泰勒·斯威夫特,以亲和力和招呼力获得了一众拥趸,那萨姆·奥尔特曼(Sam Altman)就有些像AI届的金·卡戴珊,永远善于制造话题和抢风头。 最近

若是说黄仁勋(Jensen Huang)是科技届的泰勒·斯威夫特,以亲和力和招呼力获得了一众拥趸,那萨姆·奥尔特曼(Sam Altman)就有些像AI届的金·卡戴珊,永远善于制造话题和抢风头。

最近两周,关于OpenAI将要推出搜索引擎的传言沸沸扬扬,所有的聚光灯都投射在奥尔特曼身上。正当人人期待值快到达巅峰时,这位硅谷的“当红炸子鸡”上周五突然跳出来,宣布OpenAI的春季产物宣布会将在5月10日举行,正好是谷歌I/O开发者大会的前一天。他还在推特上答应将带来一些“具有魔力”的更新,这样一套“营销组合拳”不仅为OpenAI造足了势头,也使得谷歌的“预热声”瞬间哑火。

那么在周一的宣布会上,OpenAI事实推出了什么“魔力(magic)”产物?

GPT-4o,OpenAI*能剖析情绪的多模态大型语言模子

美西时间上午10点整,OpenAI首席手艺官米拉·穆拉提(Mira Murati)进入了直播室,向观众先容了这次春季大更新,其中包罗桌面版本的ChatGPT,更新的用户界面,以及最主要的,新的旗舰模子—GPT-4o。

GPT-4o中的“o”代表“Omnimodal”,顾名思义,这是一个基于GPT-4之上的多模态大模子。

更值得关注的是,GPT-4o能够与用户举行多样化的语气交互,并精准捕捉到用户的情绪转变,这是一大提高。与之前版本仅通过“语音转文字(voice-to-text)”来识别语音输入差异,GPT-4o能够实时处置语音输入并响应用户的情绪和语气。

在直播历程中,两位OpenAI的员工向人人展示了GPT-4o的更新细节。

1.感知用户情绪:前沿研究部门主管陈信翰(Mark Chen)让ChatGPT-4o聆听他的呼吸,谈天机械人侦测到他急促的呼吸,并诙谐地建议他不要像吸尘器那样呼吸,要放慢速率。随后Mark深呼吸一次,GPT-4o则示意这才是准确的呼吸方式。

2.具备差异情绪的声音:陈信翰树模了ChatGPT-4o若何用差其余声音朗读AI天生的故事,包罗超级戏剧化的朗诵、机械人音调,甚至唱歌。

3.实时视觉功效:研究员巴雷特·佐夫(Barret Zoph)演示了若何让ChatGPT-4o通过手机摄像头实时解决数学问题,似乎一位真实的数学先生在旁边指导每一个解题步骤。此外,ChatGPT-4o还能通过前置摄像头考察用户的面部神色,剖析其情绪。

4.更即时的语音交互:ChatGPT-4o的响应时间获得缩短,与用户的交互加倍即时。穆拉提和陈信翰行使新的谈天机械人展示了跨语言的实时翻译功效,能够在英语和意大利语之间无缝转换。

由此可见,这次更新的重点在于使谈天机械人不再那么机械冷漠,而是加倍靠近真实人类,能够明白并表达情绪。那么,GPT-4o是若何实现情绪识其余呢?

OpenAI现在还没有宣布更多的手艺细节,但凭证其在官网的概述,在GPT-4o之前,使用ChatGPT的语音模式时,需要通过三个相互自力的模子来举行接力处置:

1. *个模子将音频转换为文本;

2. 接着由GPT-3.5或GPT-4处置文本输入并输出文本;

3. 最后一个模子再将文本转换回音频。

这种处置方式常导致信息的大量丢失,例如无法捕捉到语调、识别多个语言者或靠山噪音,也无法天生笑声、讴歌或其他情绪表达。

GPT-4o的创新之处在于,它是OpenAI的*整合文本、视觉和音频多模态输入与输出的模子。通过端到端地训练一个统一的新模子,实现了所有输入和输出的处置都由统一个神经网络完成

除了多模态输入输出,GPT-4o还具备更快的响应速率:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,靠近人类在对话中的响应时间

GPT-4o在英语文本和代码上的性能与GPT-4 Turbo性能相当,在非英语文本上的性能显著提高,同时API的速率也更快,成本降低了50%。与现有模子相比,GPT-4o在视觉和音频明白方面尤其精彩。

为了给人人一个更直观的感受,我们让ChatGPT-4天生了一个对比GPT-4o和GPT-4 Turbo的表格:

为什么说公有云的黄金时代已经谢幕?

科技博主“All About AI”也在YouTube上展示了GPT-4o和GPT-4 Turbo的反映速率(下图)。‍

通过同时向GPT-4o(左)和GPT-4 Turbo(右)提出相同要求—“写三段关于19世纪在巴黎生涯的内容”—我们可以考察到当GPT-4o已经完成处置并做出回应时,GPT-4 Turbo仍在举行输出处置。

GPT-4o在5216毫秒(5.216秒)内处置了574个Token,约即是 110 Token/秒;GPT-4 Turbo在23442毫秒(23.442秒)内处置了474个Token,约即是20 Token/秒。前者的处置速率是后者的约莫5.44倍。

宣布会之后,一名OpenAI的研究员在自己的推文中证实,此前泛起在测试网站上的神秘 GPT-2 谈天机械人确实就是GPT-4o。

“GPT-4o 是我们最新的前沿模子。我们已经在LMSys上测试了一个版本,也就是 im-also-a-good-gpt2-chatbot。” 威廉·费杜斯(WIlliam Fedus)在自己的推特上先容到,而且获得了奥尔特曼的转发。

“ELO分数最终可能受到提醒难度的限制。我们发现在更难的提醒集上 — 尤其是编程 — GPT-4o 的ELO比我们之前*的模子凌驾100分,”这位工程师弥补道。

从下图可以看出,GPT-4o(也就是im-also-a-good-gpt2-chatbot)的显示一骑绝尘,远高于其他大模子。

穆拉提还在春季宣布会上宣布,GPT-4o的文本和图像功效已最先向付费的ChatGPT Plus和Teams用户提供,并将很快推广至企业用户。同时,免用度户也将逐步获得使用权限,但需受到速率的限制。GPT-4o的语音功效预计将在未来几周内向用户开放。

现在,开发者已能通过API使用GPT-4o的文本和视觉模式。

此外,OpenAI还对ChatGPT的用户界面(UI)举行了优化,而且推出了适用于macOS系统的ChatGPT应用程序,已向付用度户开放。该公司示意今年晚些时刻还将推出Windows版本的ChatGPT应用程序。

苹果将用GPT-4o取代自家语音助手Siri?

GPT-4o的推出动员了苹果股价小幅上涨。

上周五,彭博社报道称苹果正思量在下一代iOS18系统中集成ChatGPT手艺。若是与OpenAI杀青协议,苹果可能会推出基于ChatGPT的谈天助理,作为公司设计在6月宣布的一系列新人工智能功效之一。

多年来,苹果一直是包罗沃伦·巴菲特在内的*投资者和投资机构青睐的科技股,而且是市值*大科技公司,但近年来涨幅却跑输其他大科技公司。

今年以来,苹果股价下跌了2%左右,而微软股价则上涨了10% 以上。得益于其在AI领域的*职位(稀奇是与OpenAI的深度互助)以及在云营业和办公套件中加入AI手艺,微软已成为全球市值最高的公司,这一*职位看似还将连续一段时间。

纵观其他Magnificent 7公司的市值:谷歌依附Gemini增进了20%,拥有开源大语言模子LLaMA的Meta上涨了32%,投资了明星AI初创企业Antropic的亚马逊增进了22%;被誉为AI行业“军器商”的芯片公司英伟达的市值更是增进了82%之多。(注:Magnificent 7是指7家拥有垄断/寡头职位、订价能力、耐久盈利能力的科技公司,即微软、谷歌、Meta、亚马逊、英伟达、苹果和特斯拉。)

剖析师们普遍以为,苹果的增速放缓主要归因于焦点营业iPhone增进疲软,以及缺乏新的AI产物线。虽然Siri作为AI语音助手于2011年推出,但在准确性和适用性方面远逊于谷歌、亚马逊和OpenAI的竞品。

另一方面,手机营业的竞争对手们也已先于苹果在手机中引入新的AI功效。例如,三星电子最近推出的高端Galaxy手机接纳了最新的天生式AI手艺,提供实时语言翻译、总结条记和编辑照片等功效。

面临来自四周八方的压力,苹果在今年二月宣布作废长达十年的造车设计,并将部门员工转至天生式AI团队,标志着AI将成为公司未来生长的重点。

在5月2日与剖析师举行的电话集会上,蒂姆·库克称依附将硬件、软件和服务无缝集成的能力,苹果有优势在AI时代脱颖而出。这位首席执行官在去年就示意使用过ChatGPT,并以为那时的ChatGPT另有许多问题需要解决。他频频强调,苹果将在“异常深图远虑的基础上”引入新的AI功效,这可能注释了为什么苹果在推出AI产物线方面希望缓慢。

那么GPT-4o是否到达了库克的尺度?信托在6月份苹果举行的年度全球开发者大会,我们能够见分晓。

标签: