开元体育突发 ChatGPT 即将登陆 iPhone!苹果接近与 OpenAI 达成协议我们挖出了这些新功能细节原标题:突发 ChatGPT 即将登陆 iPhone!苹果接近与 OpenAI 达成协议,我们挖出了这些新功能细节
今日凌晨,据彭博社记者 MarkGurman 援引知情人士消息,苹果即将与 OpenAI 达成合作协议,将 ChatGPT整合到iOS 18 操作系统。
报道还称苹果也与 Google 就 Gemini 聊天机器人的授权协议进行了谈判,不过,目前双方讨论尚未达成协议。
值得一提的是,OpenAI 今日宣布将于太平洋时间 5 月 13 日直播演示一些关于 ChatGPT 的更新内容。
The Information 称 OpenAI预计将展示更聪明的 AI语音助手,支持声音和文本交流,拥有识别图像能力以及更好的逻辑推理能力。
《纽约时报》今日爆料称,苹果两名高管在去年初花了数周时间测试 OpenAI 的 ChatGPT 之后,便作出了给语音助手Siri进行「大脑移植」的决定。
知情人士还透露,改进后的 Siri 将于今年6 月份的 WWDC 大会亮相。新 Siri 的对话性更强、用途更广,其Siri 的底层技术将包括一个新的生成式 AI 系统,支持聊天功能,而不是一次回答一个问题。
除了 AI Siri,彭博社也报道称,苹果的目标是利用大语言模型(LLM),为 iOS 18 带来一系列的 AI 功能,包括但不限于:
翻阅苹果这段时间发布的 AI 论文,几乎都在围绕如何将大模型塞进你的苹果全家桶,而这也是今年 6 月 WWDC24 大会的最大看点。
本月中旬,苹果也发布了一篇名为「Ferret-UI:基于多模态大语言模型的移动 UI 理解」的论文。
其中,Ferret-UI 被描述为一种新的 MLLM,专为理解移动 UI 屏幕而定制,具有「指向、定位和推理功能」。它最大的特点是有一个放大系统,可以将图像放大到「任何分辨率」,使图标和文本更易于阅读。
为了进行处理和训练,Ferret 还将屏幕分成两个较小的部分,将屏幕切成两半。相较于其他大语言模型,传统的更倾向于扫描较低分辨率的全局图像,这降低了充分确定图标外观的能力。
近两年来,苹果时常为人诟病在 AI 领域动作迟缓,在过往的官方新闻稿中,苹果甚至很少直接提及 AI 一词,相反,他们更倾向于使用「机器学习」等较为保守的词汇。
无论是苹果 CEO 库克对于生成式 AI 的频频发声,还是在新款 MacBook Air 新闻稿中将其列为「用于 AI 的全球最佳消费级笔记本电脑」,看得出来大船调转的苹果正在 AII in AI。
当人们谈论人类工作岗位将会被 AI 「干掉」时,该论断放在企业的博弈也同样合适,而 AI 的到来正为苹果提供了一个恰逢其时的转型契机。
幸运的是,苹果在 AI 时代默默的布局和积累,让其在 2024 年的今天,当我们在讨论 AI 时,依然不能忽视苹果的存在。
目前曝光的论文已经略见端倪,其一是大模型进 iPhone 只是时间问题,其二是你的 iPhone 将会变得越来越聪明。
此前彭博社记者 Mark Gurman 也报道称,苹果在 iOS 18 中推出的第一批新 AI 功能将立足端侧,摆脱对云端服务的依赖。
华尔街咨询机构 Melius Research 主管 Ben Reitzes 曾在接受 CNBC 采访时表示,苹果可能会在 6 月份的 WWDC 上,推出一个全新的 AI 应用商店,预计当中将包括各大供应商提供的 AI 应用。
Reitzes 预测,苹果将在开发者大会上详细说明如何从 App Store 购买 AI 应用程序,并且,全新的 AI 应用商店也会拥有专属的 App、AI 助手以及升级版 Siri。
在 Android 阵营这边,语音助手仍旧是最核心的解题思路,为了让你手机上 Siri 变得更智能,苹果默默耕耘了十三年,而今年,Siri 也将会迎来有史以来最重磅的更新。
鉴于苹果在生成式 AI 领域根基尚浅,此前有消息称苹果为了 AI 不惜考虑要上 Google 等公司的船,这表明 iOS 18 预计不会出现苹果自研 GPT。
苹果的 Siri 研究团队在论文《利用大型语言模型进行设备指向性语音检测的多模态方法》中讨论了一种去掉唤醒词的方法。
结果显示,相比于单一的纯文本/纯音频模型,使用多模态系统的 iPhone 能够大幅降低设备指向性语音检测任务上的错误率。
也就是说,继去年 WWDC23 大会宣布省去「hey」之后,未来 Siri 将有机会顺带连「Siri」的唤醒词也一同省略,让 Siri 更加自然地融入到我们的对话之中。
MM1 的多模态能力倘若被集成到 iPhone 上,预计 iPhone 将能够通过视觉、语音和文本等多种方式理解并响应用户的需求,
例如,OCR 功能的增强,iPhone 用户能够更方便地从图片中提取文字信息;而多图像推理和思维链推理的能力,则能提升用户与 Siri 的对话质量。
此外,上文提到的 Ferret-UI 模型能准确识别和定位屏幕上的各个元素及其功能,反过来赋能到 Siri 上,将有望提升响应用户指令的准确性开元体育。
想象一下,当 iPhone 能够将整个 UI 界面转化为清晰的语音描述时,或者提供精确的语音操作指引,甚至能够对复杂的功能进行详细的讲解,也能为视障人士、老年人或儿童带来极大的便利。
2024 年的苹果如果要在 AI 的版图上留下浓墨重彩的一笔,那么开源注定是绕不开的关键词。
先有 Mistral 8x22B 闷声干大事,后有 Meta Llama 3 模型深夜炸场,现在连苹果也要下场参加这场激烈的开源争霸赛。
Meta 开发的 Llama 3 模型拥有最大的规模,目前已发布的模型参数数量高达 700 亿。
苹果推出的 OpenELM 模型提供多种规格开元体育,参数量分别为 2.7 亿、4.5 亿、11 亿和 30 亿。
值得注意的是,参数量为 2.7 亿的 OpenELM 模型在 MMLU 上的表现超越了 30 亿参数的版本。
Phi-3-mini 旨在实现轻量级、经济实惠的部署,适用于那些处理较小数据集的自定义应用程序。
OpenELM 系列模型涵盖 2.7 亿开元体育、4.5 亿、11 亿和 30 亿参数的预训练 OpenELM 模型,以及这些模型的指令调整版本。
论文显示,该系列模型在来自 Reddit、维基百科、等的 1.8 万亿个 tokens 的公共数据集上进行预训练。
相较于 Grok 1.0 开源的「抠搜」,苹果此次发布了完整的框架,涵盖数据的整理、模型的构建与训练、模型的调整与优化,此外,苹果还提供了多个预先训练好的模型节点和详尽的训练记录等。
在 Transformer 模型架构的每一层中都有效分配参数。通过这种方式,模型可以更好地学习数据,同时避免过度拟合,保持较高的泛化能力。
简单点理解,就是想象有一座多层的图书馆,每一层都放着不同类别的书籍,为了让图书馆运作得更高效,你决定采用「逐层缩放策略」,也就是根据每一层存放书籍的多少来灵活分配图书管理员。
近两年来,业界在一轮轮模型的狂轰滥炸中达成了一定的共识,其中「以小胜大」定律尤为引人关注——经过微调的小模型性能在某些使用场景下未必不如大模型。
去年底,微软发布的 Phi-2 凭借 2.7B 的量级让我们见识到了以小博大的「小小震撼」,在基准测试成绩上更是一举超过当时 Llama 2 7B、 Mistral 7B 等一众先进模型。
本周二微软再次发布的小尺寸模型 Phi-3 参数最小的版本,虽然只有 3.8B,但其性能甚至能与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。
同时拥有 4.5 亿参数的 OpenELM-450M 不光胜在性价比较高,整体的得分表现也相当亮眼。
需要注意的是,苹果在论文中表示,这些模型没有任何安全保证,这意味着,该系列模型依然有可能根据用户和开发人员的提示词产生一些不准确、有害、有偏见的输出。
此外,苹果还开源了深度神经网络训练库 CoreNet,使研究人员和工程师能够开发和训练各种适用于多种任务的模型,如基础模型、物体分类、检测以及语义分割等。
当然,理想与现实之间,毕竟隔着一条名为「实践」的河流,最终的「One more thing」,还需在 WWDC24 的舞台上揭晓。返回搜狐,查看更多