site logo

Marico's space

你的AWS数据现在可为Google AI提供动力——无需迁移:Google Cloud跨云Lakehouse解析

AI技术与应用 2026-04-26 11:51:16 10
*这是 Google Cloud NEXT Writing Challenge 的投稿* --- ## 每个数据工程师都太熟悉的问题 想象一下:你的公司有多年精心整理的数据存储在 Amazon S3 上。它为你的仪表盘、你的数据管道、你的 ML 模型提供支持。然后领导层有人问:“我们能用 Google 的 AI 来处理这些数据吗?” 你已经知道这意味着什么。迁移。几周甚至几个月的 ETL 工作。令人瞠目结舌的出口费用。跨云数据复制。治理噩梦。破坏现有系统的风险。 多年来,云数据世界遵循一条不成文的规则:**选择你的云,然后就待在那里**。在提供商之间迁移并非不可能——只是痛苦到大多数团队都不愿折腾。 在 Google Cloud NEXT '26 上,这条规则改变了。Google 发布了基于 Apache Iceberg 构建的 **Cross-Cloud Lakehouse**,这可能是整场大会最被低估的公告——尤其是如果你关心 AI 实际发展方向的话。 --- ## 什么是 Cross-Cloud Lakehouse? 在深入了解公告之前,先快速说明一下背景:截至 2026 年 4 月 20 日,Google 将 BigLake 更名为 **Google Cloud Lakehouse**,BigLake Metastore 现为 **Lakehouse Runtime Catalog**。如果你之前使用过 BigLake,API 和 CLI 命令保持不变——只是换了新名称以更好地反映其实际功能。 Cross-Cloud Lakehouse 将 Google Cloud Lakehouse 扩展到让你可以直接从 Google Cloud 使用 BigQuery、Dataproc 和 Apache Spark 查询 AWS(以及 Azure,将于今年晚些时候支持)中的数据——**无需迁移数据或构建复杂的 ETL 管道**。 它分两层运作: **元数据层:** 你的远程 Apache Iceberg 目录(如 Databricks Unity Catalog 或 AWS Glue)连接到 Google 的 Lakehouse。它在不复制任何文件的情况下发现你的数据,并通过 Workload Identity Federation 进行安全认证——无需长期访问密钥。 **传输层:** Google 将 Cross-Cloud Interconnect (CCI) 直接集成到数据平面。通过将 CCI 的专用私有网络与 Apache Iceberg REST Catalog 相结合,跨云查询以低延迟运行,无需支付通过公共互联网路由流量时通常会产生的高额出口费用。 结果是:你的 agent 和分析师可以像查询 Google Cloud 中的数据一样查询 AWS S3 中的数据。 --- ## 真正重要的 4 项公告 Google 发布了下一代 Cross-Cloud Lakehouse,包含四项实质性突破。让我在 keynote 层面之外逐一解析。 ### 1. 完全托管的 Iceberg 存储与真正的互操作性 这比听起来更重要。以前,如果你使用 Apache Spark 通过 Iceberg REST Catalog 表进行 ETL,你就无法通过 BigQuery 写入或使用其存储管理功能。你必须二选一。 现在 BigQuery 和托管 Apache Spark 服务之间实现了真正的读写互操作性,包括 Iceberg 兼容引擎如 Spark、Trino、Flink——以及第三方引擎如 Databricks 和 Snowflake(Preview 阶段)。一份数据,多个引擎,无妥协。 ### 2. Cross-Cloud Caching:没人谈论的功能 这是让跨云在经济上可行的功能。Google 引入了智能缓存,在**首次读取**时存储跨云数据,大幅削减出口费用,并显著加速对 AWS 和 Azure 数据的后续查询。 简单来说:第一次通过 BigQuery 查询 S3 数据时,它会被缓存在 Google 端。之后每次查询都快速且廉价。首次读取之后,跨云访问的代价几乎为零。 ### 3. Lightning Engine for Apache Spark:最高 4.5 倍性能提升 Google 的 Lightning Engine 是一个实时无服务器 Spark 引擎,相比开源 Spark 替代方案提供最高 4.5 倍的性能提升,在大数据集场景下相比领先的商业竞品提供最高 2 倍的性价比优势。 Flipkart、Lowe's 和 Meesho 已经用它加速了他们的 Apache Spark 工作负载。这不是 beta 测试——而是生产级规模。 ### 4. 不到 6 个月预估 117% 的 ROI Google 自己的分析显示,这种 agent 优先的 lakehouse 方法预估 ROI 达到 **117%**,回本期不到 6 个月。Spotify 已经用它实现了创新。 对供应商发布的 ROI 数字保持适度的怀疑是应该的——但底层逻辑是成立的。如果你消除了数据移动成本,降低了 ETL 复杂性,并让多个引擎共享单一数据副本,数学计算确实对你有利。 --- ## 大多数人忽略的角度:这是关于 AI agent 的,不只是数据 这是我认为的真正故事,也是为什么这个公告值得更多关注的原因。 NEXT '26 上每个人都在谈论 Gemini Enterprise Agent Platform、Agent Studio、agent 工作流。但所有这些都有一个根本问题:**AI agent 的智能程度取决于它能访问的数据**。 如果你的 agent 遇到跨云壁垒——高延迟、昂贵的出口费用、专有目录锁定——它的自主性就被破坏了。它无法跨整个数据资产进行推理。它只能看到你成功集中的那一小部分数据,而在大多数企业中,这只是冰山一角。 Cross-Cloud Lakehouse 不是数据功能。它是使多云企业中的真正有能力的 AI agent 成为可能的基础设施层——换句话说,几乎每个真实企业都是如此。 --- ## 实际使用体验 无需账户即可理解。设置好联合后,跨云查询的实际样子如下: ```sql SELECT user_id, action, COUNT(*) as total_actions FROM `your-project.federated_aws_catalog.your_namespace.your_table` WHERE event_date >= '2026-04-01' GROUP BY 1, 2; ``` 这是标准的 BigQuery SQL。但查询中的表实际存储在 Amazon S3 上。没有数据移动。没有迁移。没有需要管理的特殊连接器。Google Cloud Lakehouse 透明地处理元数据转换和安全数据访问。 你也可以直接从 Apache Spark 集群读取 Cross-Cloud Lakehouse 数据,无需管理单独的 AWS 凭证或 S3 连接器——Lakehouse 通过 Iceberg REST Catalog 接口自动向 Spark 提供临时的、限定范围的 S3 凭证。 --- ## 我的观点 作为一名大四 IT 工程专业学生,我在两个平台的免费层级上花了不少时间进行实验——坦率地说,体验大多是正面的。两个平台都非常强大,适合学习,而且免费层级的慷慨意味着你可以不花一分钱就构建真实的东西。不过我通过惨痛教训学到,"免费层级"需要持续关注。我曾经在一次学习项目后忘记关闭几个 AWS 服务,一觉醒来收到超过 120 美元的账单。AWS 在我解释情况后退款给我了,但那刻的惊慌记忆犹新。不知道什么在运行、在花多少钱,这种焦虑是真实的——尤其当你是一个没有预算的学生时。 这就是为什么这次 Cross-Cloud Lakehouse 公告的成本角度最吸引我的原因。跨云缓存功能尤其如此——S3 数据在首次读取后缓存在 Google 端,大幅降低后续查询的出口费用——这种东西改变的不只是企业巨头的计算方式,对小型团队和学习者也意义重大。出口费用是云服务中最令人沮丧的隐性成本之一,Google 直接解决这个问题而不是仅仅承诺"无缝互操作性",这是有意义的。 我的诚实怀疑?我想看看 Google 自己案例研究之外的团队的真正基准测试。117% 的 ROI 数字在纸面上很诱人,但供应商发布的数字总是值得审视。我还想了解故障模式——当跨云连接出现延迟峰值时会发生什么?或者当缓存过期时?对于学习和实验来说,这看起来确实令人兴奋。对于大规模生产,我想先至少等六个月让社区充分测试。 --- ## 即将到来的(以及为什么重要) 生态系统已经比大多数意识到的更大。Cross-Cloud Lakehouse 已经支持与 Databricks、Oracle Autonomous Database、Snowflake、SAP、Salesforce Data360、ServiceNow、Workday 等的双向联合。Azure 支持将于今年晚些时候推出。 目录联合也即将在 Preview 阶段推出,支持 AWS Glue、Databricks、SAP 和 Snowflake——Confluent Tableflow 支持即将到来。 这不是 Google 在构建一个功能。这是 Google 在将自己定位为多云世界的**分析大脑**——你的数据留在原处,但你的 AI 运行在 Google 的基础设施上。 这个赌注能否成功取决于采纳率和规模性能,我们会在未来几个月了解更多。但架构方向是明确的,NEXT '26 上的公告是发令枪。 *"真正的考验是企业是否信任 Google 让它成为其 AWS 数据之上的查询层——你怎么看?"* --- ## 资源 - What's New in the Agentic Data Cloud — Google Cloud Blog - The Future of Data Lakehouse for the Agentic Era — Google Cloud Blog - Google Cloud NEXT '26 Wrap-Up — All 260 Announcements - Cross-Cloud Lakehouse Documentation