新较量即将展开！OpenAI试图抢在谷歌Gemini前发布多模态模型

最新信息

2023-09-19 13:11:00

　　随着秋季的临近，谷歌和OpenAI展开一场软件竞赛，旨在推出下一代“多模态（multimodal）”大型语言模型（LLM）。

　　这些多模态模型可以处理图像和文本，例如，用户只需要给该模型发送一张网页草图，该模型就可以为网站生成代码，或者向用户提供可视图表的文本分析。
　　此前有报道称，谷歌正在接近这个目标，它已经与一小部分外部公司分享了其即将推出的Gemini多模态大型语言模型。
　　但是如今，OpenAI似乎想要抢在谷歌之前发布。据知情人士透露，这家人工智能初创公司正将其最先进的大型语言模型GPT-4与多模态功能相结合，这个更强大的多模态模型代号为Gobi。
　　一场较量即将展开
　　与GPT-4不同，Gobi从一开始就被设计为多模式，不过似乎OpenAI公司目前还没开始训练这个模型。
　　此外，随着关于GPT-5的传言逐渐传播开来，人们开始好奇Gobi是否就是GPT-5，不过有分析人士称，现在就下定论还为时过早。
　　谷歌那边怎么样呢？考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据（包括来自搜索和YouTube等消费产品的数据），这一优势将有利于谷歌向多模态模型的推动。
　　一位使用过Gemini早期版本的人士透露，与现有的模型相比，Gemini似乎产生的错误答案更少。
　　无论如何，这场竞赛类似于人工智能版的苹果与安卓之争。而Gemini的到来将揭示谷歌和OpenAI之间的差距到底有多大。
　　对恶意使用的考量
　　OpenAI此前在3月份发布GPT-4时曾预展示了多模态功能，但除了一家名为“Be My Eyes”的公司外，其没有向其他公司开放。Be My Eyes是一家为盲人或视力低下的人提供技术的公司。
　　六个月后，OpenAI公司准备在更大范围内推出被称为GPT-Vision的功能。据悉，OpenAI可能会在GPT-Vision之后再推出Gobi。
　　为什么隔了这么长时间才推出？信息安全问题是一个主要的考量因素。
　　OpenAI主要是担心新的视觉功能会被恶意利用，比如通过自动解决验证码来冒充人类，或者通过面部识别来跟踪人。但如今，OpenAI的工程师们似乎已经接近于解决围绕这项新技术的法律担忧。
　　谷歌也有同样的困扰。不过对于大模型被恶意使用或滥用的问题，谷歌给出的回答是，该公司在7月份就做出了一系列承诺，以确保其所有产品都被负责任地开发。
（文章来源：财联社）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。