Meta揭秘GPT-4o同款技术,华人团队碾压扩散模型

引言

在人工智能领域,技术创新层出不穷,各大科技巨头纷纷推出自己的杀手锏。近期,Meta AI在多模态大语言模型(MLLMs)方面取得了一项重大突破,其由华人研究者主导的TokenShuffle技术引发了广泛关注。这一技术不仅在图像生成领域展现出色的性能,还被认为与OpenAI的GPT-4o有相似之处。本文将深入探讨Meta的TokenShuffle技术,分析其背景、核心思想、技术细节以及在AI领域的战略布局。

Meta的新技术:TokenShuffle

核心思想

传统的自回归模型在图像合成方面存在效率低下的问题,因为需要处理大量的图像token,这限制了训练和推理效率以及图像分辨率。Meta提出的TokenShuffle技术旨在减少计算中的视觉token数量,从而提高效率并支持高分辨率图像合成。

技术细节

TokenShuffle技术的核心在于其Token-shuffle和Token-unshuffle操作。具体来说,在Transformer输入阶段,TokenShuffle通过合并局部空间内的视觉token来减少token数量。在推理阶段,Token-unshuffle操作则将视觉token还原。这一过程使得token数量按窗口大小的平方减少,大幅降低了Transformer的运算量。

性能表现

基于27亿参数的Llama模型,TokenShuffle在GenEval和GenAI-Bench基准测试中取得了优异的成绩,甚至超越了强扩散模型。大规模人类评估也验证了该方法的有效性。TokenShuffle的高效能和高效率,揭示了其在赋能多模态大语言模型(MLLMs)实现高分辨率、高保真图像生成方面的巨大潜力。

与GPT-4o的关联

Meta的TokenShuffle技术与OpenAI的GPT-4o在自回归图像生成方面有相似之处,但OpenAI并未公开GPT-4o背后的技术原理。文章指出,GPT-4o基于自回归技术的生图,让OpenAI的GPU都“融化”了。Meta的研究者发现,在多模态大语言模型(MLLMs)中,视觉词表存在维度冗余,视觉编码器输出的低维视觉特征被直接映射到高维语言词表空间。

华人一作的背景

该研究的华人一作是美国东北大学工程学院的博士研究生,此前在德克萨斯大学北部分校计算机科学与工程系工作了两年,拥有南京林业大学信息科学与技术学院的学士和硕士学位。他的研究兴趣包括模型效率、多模态大语言模型(LLM)和生成式人工智能(Generative AI)。

Meta在AI领域的战略布局

开源策略

Meta积极拥抱开源AI模型,希望通过开源降低成本、加速发展,并在AI竞赛中追赶其他对手。Meta首席AI科学家杨立昆(Yann LeCun)等高管都希望Llama 2能更广泛地开源。

多模态研究

Meta AI研究院(FAIR)最近开源了多项研究成果,包括虚拟人动作控制模型、影片浮水印生成模型、生成框架、LLM社交能力基准测试等。

硬件与AI结合

Meta计划大举布局AI人形机器人,将AI、传感器和软件整合,构建完整的生态系统。Meta认为自己在AR/VR设备中开发的软件、传感器和计算包正是驱动人形机器人所需的技术。

面临的挑战

开源AI模型可能存在被滥用的风险,同时Meta需要找到开源后的盈利模式。

其他相关信息

Scaling Law

俄亥俄州立大学等机构的研究人员提出了一种全新的WebDreamer框架,它可以利用LLM作为世界模型,来预测网站上的交互结果,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。

OpenAI的策略调整

OpenAI首席执行官Sam Altman认为OpenAI在开源技术方面“站在了历史的错误一边”,计划在今年夏天发布首个“开源”语言模型,并在推理能力上超越其他同类开源推理模型。

AI伦理与安全

OpenAI也因匆忙对近期模型进行安全测试,且未公布其他模型的模型卡,而引发了一些AI伦理学家的批评。

总结

Meta通过华人研究者主导的TokenShuffle技术,在多模态大语言模型和图像生成领域取得了显著进展,并在一定程度上揭示了OpenAI在GPT-4o中可能采用但未公开的技术。Meta的开源战略、多模态研究和硬件AI结合的布局,显示了其在AI领域的雄心。同时,AI领域的竞争日益激烈,OpenAI和Meta等公司都在不断调整策略,以期在未来占据领先地位。随着技术的不断进步和应用场景的扩展,未来的AI发展将更加令人期待。

editor

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注