自 OpenAI 推出 ChatGPT 以来,国内外大模型迅速遍地开花,紧随其后的有百度文心一言、谷歌 Bard、阿里通义千问、讯飞星火、360智脑,还有后来腾讯的混元、昆仑万维的天工、华为的盘古、小米的小爱和 vivo的蓝心等。
手机厂商又在 GPT 的基础上融入了更多界面和功能控制上的交互,使得人工智能更加多元化。当然人工智能的扩展领域不仅仅局限于手机,GPT4 以后开放了联网功能并推出了众多插件,全方位覆盖衣食住行、社交、工作以及学习等日常所需,基本上能够扮演24小时私人助理的角色。
最近,谷歌又推出了最新一代深度学习大模型——Gemini。Gemini 不仅在多模态推理方面取得了巨大突破,而且在各项性能指标上超越了之前的SOTA模型,成为当今最具前瞻性和领先水平的AI模型之一。
据 Google 官方显示,从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在 32 个广泛使用的大型语言模型(LLM)研究和开发的学术基准测试中,超过了30个当前最先进的结果。
多模态 Gemini VS GPT-4
MMLU(大规模多任务语言理解)是测试 AI 模型知识和解决问题能力的最流行方式之一。Gemini Ultra 在该测试中以 90.0% 的准确率成为首个超越人类专家的模型,作为对比,GPT-4 只有 86.4% 的准确率。
Gemini的应用场景
Gemini 不仅在多模态任务上表现卓越,而且可以广泛应用于各种场景。
代码生成:
Gemini 可以根据用户的输入生成代码,实现了从任意类型的输入到任意类型输出的转换。
文本和图像生成:
Gemini 可以结合文本和图像生成多模态的输出。
视觉跨语言推理:
Gemini 可以在不同语言之间进行视觉推理。
当你随手画个鸭子,从曲线到鸭子成型,Gemini 都可以精准识别。给鸭子画条波浪线,它能理解你的言外之意,精准地指出鸭子在水中游泳的场景答案。
同时它还能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
Gemini 1.0 提供三种版本:
Gemini Ultra:适用于复杂任务的最强大的模型。
Gemini Pro:适合大多数任务的中间版本。
Gemini Nano:最小、最高效的模型,也应该在用户设备上运行。
据了解,Nano 还分为两个版本:一个有 18 亿个参数,一个有 32.5 亿个参数。 而对于 Pro 和 Ultra,Google 没有提供有关模型的任何信息。
谷歌用自己的基准测试来支持所承诺的性能飞跃。 因此,在大多数情况下,Ultra 变体的性能优于 GPT-4 或 GPT-4 Vision。 Gemini 不仅应该比它的前辈更强大,而且效率也明显更高。
手机大模型的新玩家
结语
Gemini 的推出标志着深度学习领域的一次重大进展,为多模态推理能力的发展奠定了坚实基础。无论是对于科学研究、竞技编程、音频处理还是其他领域,Gemini 都展现出了强大的潜力和广泛的应用前景。
未经允许不得转载:前端资源网 - w3h5 » 谷歌推出新一代深度学习大模型Gemini