Google 发布两款新的 Gemini 1.5 模型|如何在一个聊天中解锁多个 ChatGPT 工具

byAIQ爱派

2024-10-02

Section AI 应用

Google 刚刚通过 Gemini API 发布了两款新的升级版 Gemini 1.5 模型，包括 1.5 pro-002，该模型在数学基准测试中表现出色，以及 1.5-flash-002，该模型在指令跟随方面取得了显著进展。

内容摘要

Google 发布两款新的 Gemini 1.5 模型

Google 今天发布了两款新的生产就绪 Gemini 模型，并改进了速率限制、1.5 Pro 的定价以及默认启用的一些过滤器设置。所有这些改进都专注于使开发人员能够构建他们感兴趣的内容。

新模型的独特之处：

新模型的独特之处在于其数学能力和编码能力，这对于关注开发者问题的人来说显然非常重要。这些改进是基于生态系统的反馈进行的倾听和迭代。

在这次 Gemini 模型迭代中看到的线性进展，甚至在某些基准测试中是指数级的进展，这非常令人兴奋。

为什么重要： Google 的新 Gemini 1.5-pro-002 模型在挑战性的数学基准测试中表现出色，如 AMC + AIME 24 和 MATH。这意味着该模型能够解决需要深度领域专业知识的高级数学问题和任务，这是大多数之前的 AI 模型的一个主要障碍。

您可以在此处免费试用 AI Studio 和新的 Gemini 1.5 模型。

Gemini 1.5 模型对比别的 AI 模型

Google 还宣布了 Gemini 模型的可访问性改进，包括 1.5 Pro 的价格降低 50%，Flash 的速率限制提高 2 倍，1.5 Pro 提高 3 倍，输出速度提高 2 倍，延迟降低 3 倍。

其他功能：

除了新的更新、更高的速率限制、扩展的功能访问和高上下文窗口外，Gemini 1.5 还提供了其他令开发人员兴奋的功能。

Kilpatrick 表示：“我的观点之一是，构建 AI 的财务负担是这项技术可访问性的限制因素之一……我们的策略是提供全球最慷慨的免费层。”

Kilpatrick 补充道：“一个重大区别是，您可以来到 AI Studio，免费微调 Gemini 1.5 Flash，然后最终将该模型投入生产，并支付相同的极具竞争力的每百万令牌成本。没有额外的成本来使用微调模型，这在生态系统中是非常独特的。”

为什么重要： Google 的最新 Gemini 更新显著降低了 AI 开发的财务门槛，同时提升了性能，特别是在数学方面。通过这些更新，Gemini 现在在性能价格比、上下文窗口、视频理解和其他 LLM 基准测试方面位居 LLM 领导榜首。

创新速度： Google 的 Gemini 项目仅有一年左右的历史。Google 是第一个发布 1M 上下文窗口（和 2M）和上下文缓存的公司，并且自那以后一直在快速进展。

AI 时代

AI 时代真正令人兴奋的是，看到任何人，即使是非技术人员，也能构建自己的 AI 应用。如果有人从零开始，是否有工具栈、文档、课程、视频或 Google 的教程推荐？”

Kilpatrick 表示：“作为一名前软件工程师，我现在可以解决 10 倍更难的问题。”

Kilpatrick 补充道：“对于从未编写过代码的人来说，他们现在可以用代码解决任何问题，因为他们有这个副驾驶。”

Kilpatrick 补充道：“[对于初学者] ai.google.dev 是我们的默认登录页面，也链接到 Gemini API 文档。在 GitHub 上，我们有一个 Quickstart 存储库，您可以运行四个命令，在计算机上运行 AI Studio 和 Gemini 的本地版本，以便玩转模型。”

为什么重要： 有了 AI 作为助手，一些开发人员正在解决 10 倍更复杂的软件问题——这也意味着 10 倍的改进速度和 10 倍的创新，对于那些明智使用这项技术的人来说。Google 还有很好的资源，可以帮助完全的初学者在不到 5 分钟内开始。

实际应用案例

概述： Gemini 1.5 的多模态能力允许许多其他模型无法匹敌的实际应用，例如处理和分析长达一小时的视频或整本书——这要归功于其令人印象深刻的 2M 令牌上下文窗口。

Cheung 表示：“您能否分享一些客户如何在现实世界中使用这些 Gemini 实验模型的示例或用例？”

Kilpatrick 表示：“我认为处理视频是最酷的事情之一……能够进入 AI Studio，放入一小时的视频，并问一堆问题，这是一种令人震撼的体验。而且可以免费试用。”

Kilpatrick 补充道：“我们的目标是从头开始构建一个多模态模型……多模态的重要用例数量级对于世界、开发人员和希望使用这项技术的人来说是如此之多。”

为什么重要： Gemini 1.5 的 2M 上下文窗口使其能够处理和分析长内容，如长视频、整本书和长时间的播客，开辟了内容分析和交互的新可能性。要全面了解其潜力，请查看 Google 列出的 185 个来自领先组织的实际 AI 用例。

AI 代理

AI 的未来可能会从被动系统转向主动系统，AI 代理能够启动操作并请求澄清或许可，就像今天的人类助手一样。AI 将如何改变我们未来的日常生活？

目前大多数 AI 系统都是单向的。我提示系统，然后它给我一个回应，或者我告诉它做某事，然后它按照我的指示去做。

未来，在中期，系统实际上会询问是否允许或澄清它可能要去做的事情，并真正解决这些问题。”

非常有趣的是，目前很少有 AI 系统，如果有的话，会以一种有意义的方式问用户它们如何帮助。”

为什么重要： 通过从纯粹的被动系统转向主动系统，AI 可能会变得更像一个真正的“Her-like”助手，预见需求并在被提示之前提供解决方案。目前，没有 AI 系统能够有效地做到这一点，但随着 AI 继续通过项目如 Astra 进行发展，这可能是 AI 的下一个阶段。

OpenAI 获得软银融资，苹果退出筹款

概述： 尽管苹果报道称不再参与 OpenAI 的即将到来的融资轮，这家 AI 巨头已经从日本投资巨头软银、微软和 Thrive Capital 筹集了数十亿美元。

OpenAI 据传正在通过可转换票据筹集高达 65 亿美元，估值高达 1500 亿美元。
微软计划参与 10 亿美元，这是其在 AI 巨头中的额外 130 亿美元投资。
投资公司 Thrive Capital 也投资了 10 亿美元，并有报道称基于收入目标，可以在第二年再增加 10 亿美元。
《华尔街日报》报道，苹果不再参与此次融资轮，尽管其与 OpenAI 的合作关系和在 Apple Intelligence 中的包含。
此次融资发生在 OpenAI 有争议地重组为盈利实体的背景下，Sam Altman 否认了他将在此次重组中获得股权的传言。

为什么重要： OpenAI 的最新融资和转向盈利是其复杂和有争议的商业结构中的又一篇章。尽管最近有高调的离职和持续的戏剧，ChatGPT 的制造商显然仍被视为 AI 热潮中的顶级选择——并且有许多大玩家愿意参与其中。

AI 培训 – 如何在一个聊天中解锁多个 ChatGPT 工具

概述： ChatGPT 的新快捷功能让您可以在一个聊天中瞬间切换图像生成、网络搜索和高级推理工具，避免重置聊天的需要。

逐步操作：

在 ChatGPT 中开始新聊天，并在输入字段中键入“/”。
选择三个选项之一：图片（DALL-E）、搜索（网络）或推理（GPT-o1）。
对于图像，使用“/picture [描述]”（例如，“/picture 量子计算机”）。
对于网络搜索，使用“/search [查询]”（例如，“/search 量子计算机”）。
对于复杂推理，使用“/reason [任务]”（例如，“/reason 解释量子计算”）。

专业提示： 使用 /search 命令时，尝试在提示中添加“最新”或特定年份。

Liquid AI 推出高效的新 LFM 模型

图片来源：Liquid AI

概述： Liquid AI 刚刚推出了一系列名为 Liquid Foundation Models (LFM) 的新 AI 模型，挑战传统的 transformer 架构，同时在较小的模型大小上实现了最先进的性能和增强的内存效率。

详细信息：

该公司发布了其 LFM 的 1.3B、3B 和 40B 参数大小，基于一种新架构，利用根植于动态系统的计算单元，而不是传统的 transformer。
这些模型超越了基于 transformer 的同类产品，如 Meta 的 Llama 3.2 和 Microsoft 的 Phi-3.5，在 MMLU 等主要基准上表现出色。
LFM 在长上下文任务中需要的内存显著减少——支持高达 32k 个标记，同时保持内存效率。
这些模型不是开源的，目前仅通过公司的 Lambda（聊天 UI 和 API）和 Perplexity AI 提供。

为什么重要： Liquid AI 的 LFM 是自 2017 年以来主导模型的 transformer 架构标准的重大变革。基准表明，实现最先进的 AI 性能有不止一种公式——并且可能为更高效和可访问的 AI 系统开辟新的可能性。