Marico's space

你的AWS数据现在可为Google AI提供动力——无需迁移：Google Cloud跨云Lakehouse解析

AI技术与应用 2026-04-26 11:51:16 10

*这是 Google Cloud NEXT Writing Challenge 的投稿* --- ## 每个数据工程师都太熟悉的问题想象一下：你的公司有多年精心整理的数据存储在 Amazon S3 上。它为你的仪表盘、你的数据管道、你的 ML 模型提供支持。然后领导层有人问：“我们能用 Google 的 AI 来处理这些数据吗？” 你已经知道这意味着什么。迁移。几周甚至几个月的 ETL 工作。令人瞠目结舌的出口费用。跨云数据复制。治理噩梦。破坏现有系统的风险。多年来，云数据世界遵循一条不成文的规则：**选择你的云，然后就待在那里**。在提供商之间迁移并非不可能——只是痛苦到大多数团队都不愿折腾。在 Google Cloud NEXT '26 上，这条规则改变了。Google 发布了基于 Apache Iceberg 构建的 **Cross-Cloud Lakehouse**，这可能是整场大会最被低估的公告——尤其是如果你关心 AI 实际发展方向的话。 --- ## 什么是 Cross-Cloud Lakehouse？在深入了解公告之前，先快速说明一下背景：截至 2026 年 4 月 20 日，Google 将 BigLake 更名为 **Google Cloud Lakehouse**，BigLake Metastore 现为 **Lakehouse Runtime Catalog**。如果你之前使用过 BigLake，API 和 CLI 命令保持不变——只是换了新名称以更好地反映其实际功能。 Cross-Cloud Lakehouse 将 Google Cloud Lakehouse 扩展到让你可以直接从 Google Cloud 使用 BigQuery、Dataproc 和 Apache Spark 查询 AWS（以及 Azure，将于今年晚些时候支持）中的数据——**无需迁移数据或构建复杂的 ETL 管道**。它分两层运作： **元数据层：** 你的远程 Apache Iceberg 目录（如 Databricks Unity Catalog 或 AWS Glue）连接到 Google 的 Lakehouse。它在不复制任何文件的情况下发现你的数据，并通过 Workload Identity Federation 进行安全认证——无需长期访问密钥。 **传输层：** Google 将 Cross-Cloud Interconnect (CCI) 直接集成到数据平面。通过将 CCI 的专用私有网络与 Apache Iceberg REST Catalog 相结合，跨云查询以低延迟运行，无需支付通过公共互联网路由流量时通常会产生的高额出口费用。结果是：你的 agent 和分析师可以像查询 Google Cloud 中的数据一样查询 AWS S3 中的数据。 --- ## 真正重要的 4 项公告 Google 发布了下一代 Cross-Cloud Lakehouse，包含四项实质性突破。让我在 keynote 层面之外逐一解析。 ### 1. 完全托管的 Iceberg 存储与真正的互操作性这比听起来更重要。以前，如果你使用 Apache Spark 通过 Iceberg REST Catalog 表进行 ETL，你就无法通过 BigQuery 写入或使用其存储管理功能。你必须二选一。现在 BigQuery 和托管 Apache Spark 服务之间实现了真正的读写互操作性，包括 Iceberg 兼容引擎如 Spark、Trino、Flink——以及第三方引擎如 Databricks 和 Snowflake（Preview 阶段）。一份数据，多个引擎，无妥协。 ### 2. Cross-Cloud Caching：没人谈论的功能这是让跨云在经济上可行的功能。Google 引入了智能缓存，在**首次读取**时存储跨云数据，大幅削减出口费用，并显著加速对 AWS 和 Azure 数据的后续查询。简单来说：第一次通过 BigQuery 查询 S3 数据时，它会被缓存在 Google 端。之后每次查询都快速且廉价。首次读取之后，跨云访问的代价几乎为零。 ### 3. Lightning Engine for Apache Spark：最高 4.5 倍性能提升 Google 的 Lightning Engine 是一个实时无服务器 Spark 引擎，相比开源 Spark 替代方案提供最高 4.5 倍的性能提升，在大数据集场景下相比领先的商业竞品提供最高 2 倍的性价比优势。 Flipkart、Lowe's 和 Meesho 已经用它加速了他们的 Apache Spark 工作负载。这不是 beta 测试——而是生产级规模。 ### 4. 不到 6 个月预估 117% 的 ROI Google 自己的分析显示，这种 agent 优先的 lakehouse 方法预估 ROI 达到 **117%**，回本期不到 6 个月。Spotify 已经用它实现了创新。对供应商发布的 ROI 数字保持适度的怀疑是应该的——但底层逻辑是成立的。如果你消除了数据移动成本，降低了 ETL 复杂性，并让多个引擎共享单一数据副本，数学计算确实对你有利。 --- ## 大多数人忽略的角度：这是关于 AI agent 的，不只是数据这是我认为的真正故事，也是为什么这个公告值得更多关注的原因。 NEXT '26 上每个人都在谈论 Gemini Enterprise Agent Platform、Agent Studio、agent 工作流。但所有这些都有一个根本问题：**AI agent 的智能程度取决于它能访问的数据**。如果你的 agent 遇到跨云壁垒——高延迟、昂贵的出口费用、专有目录锁定——它的自主性就被破坏了。它无法跨整个数据资产进行推理。它只能看到你成功集中的那一小部分数据，而在大多数企业中，这只是冰山一角。 Cross-Cloud Lakehouse 不是数据功能。它是使多云企业中的真正有能力的 AI agent 成为可能的基础设施层——换句话说，几乎每个真实企业都是如此。 --- ## 实际使用体验无需账户即可理解。设置好联合后，跨云查询的实际样子如下： ```sql SELECT user_id, action, COUNT(*) as total_actions FROM `your-project.federated_aws_catalog.your_namespace.your_table` WHERE event_date >= '2026-04-01' GROUP BY 1, 2; ``` 这是标准的 BigQuery SQL。但查询中的表实际存储在 Amazon S3 上。没有数据移动。没有迁移。没有需要管理的特殊连接器。Google Cloud Lakehouse 透明地处理元数据转换和安全数据访问。你也可以直接从 Apache Spark 集群读取 Cross-Cloud Lakehouse 数据，无需管理单独的 AWS 凭证或 S3 连接器——Lakehouse 通过 Iceberg REST Catalog 接口自动向 Spark 提供临时的、限定范围的 S3 凭证。 --- ## 我的观点作为一名大四 IT 工程专业学生，我在两个平台的免费层级上花了不少时间进行实验——坦率地说，体验大多是正面的。两个平台都非常强大，适合学习，而且免费层级的慷慨意味着你可以不花一分钱就构建真实的东西。不过我通过惨痛教训学到，"免费层级"需要持续关注。我曾经在一次学习项目后忘记关闭几个 AWS 服务，一觉醒来收到超过 120 美元的账单。AWS 在我解释情况后退款给我了，但那刻的惊慌记忆犹新。不知道什么在运行、在花多少钱，这种焦虑是真实的——尤其当你是一个没有预算的学生时。这就是为什么这次 Cross-Cloud Lakehouse 公告的成本角度最吸引我的原因。跨云缓存功能尤其如此——S3 数据在首次读取后缓存在 Google 端，大幅降低后续查询的出口费用——这种东西改变的不只是企业巨头的计算方式，对小型团队和学习者也意义重大。出口费用是云服务中最令人沮丧的隐性成本之一，Google 直接解决这个问题而不是仅仅承诺"无缝互操作性"，这是有意义的。我的诚实怀疑？我想看看 Google 自己案例研究之外的团队的真正基准测试。117% 的 ROI 数字在纸面上很诱人，但供应商发布的数字总是值得审视。我还想了解故障模式——当跨云连接出现延迟峰值时会发生什么？或者当缓存过期时？对于学习和实验来说，这看起来确实令人兴奋。对于大规模生产，我想先至少等六个月让社区充分测试。 --- ## 即将到来的（以及为什么重要）生态系统已经比大多数意识到的更大。Cross-Cloud Lakehouse 已经支持与 Databricks、Oracle Autonomous Database、Snowflake、SAP、Salesforce Data360、ServiceNow、Workday 等的双向联合。Azure 支持将于今年晚些时候推出。目录联合也即将在 Preview 阶段推出，支持 AWS Glue、Databricks、SAP 和 Snowflake——Confluent Tableflow 支持即将到来。这不是 Google 在构建一个功能。这是 Google 在将自己定位为多云世界的**分析大脑**——你的数据留在原处，但你的 AI 运行在 Google 的基础设施上。这个赌注能否成功取决于采纳率和规模性能，我们会在未来几个月了解更多。但架构方向是明确的，NEXT '26 上的公告是发令枪。 *"真正的考验是企业是否信任 Google 让它成为其 AWS 数据之上的查询层——你怎么看？"* --- ## 资源 - What's New in the Agentic Data Cloud — Google Cloud Blog - The Future of Data Lakehouse for the Agentic Era — Google Cloud Blog - Google Cloud NEXT '26 Wrap-Up — All 260 Announcements - Cross-Cloud Lakehouse Documentation