谷歌云二要素认证 GCP谷歌云IAM权限管理

谷歌云GCP / 2026-04-27 19:10:16

前言：IAM 不只是“开权限”，更是“管风险”

在 GCP（Google Cloud Platform）里，IAM（Identity and Access Management，身份与访问管理）就像你家里的“门禁系统”：你以为只是给别人开门，结果你发现门禁还分门类、门锁有等级、钥匙有有效期、门禁日志能追踪到每个人的脚步。开得太宽，会有人随便进；开得太窄，又让正常业务进不来；开到一半还忘记回收，风险就像没关的水龙头——不一定立刻爆，但迟早会“滴答滴答”漏到你心态崩溃。

本文就按这个思路，围绕“GCP谷歌云IAM权限管理”聊一套从设计到运维的实战方法：如何理解 IAM、如何分配角色与权限、如何用最小权限原则、如何管理服务账号、如何避免常见坑，并给出排错与治理建议。

一、IAM 到底管什么？你理解得越清楚，越不容易踩坑

1.1 身份（Identity）：你是谁

IAM 关心的“身份”可以是：

人：Google Workspace 账号、Cloud Identity 账号
群组：把一堆人归到一起管理（强烈建议用群组，别给每个人单独配）
服务账号（Service Account）：给应用/工作负载用的“机器身份”
外部身份：通过 Workload Identity Federation 等方式引入

很多人一上来就纠结“我该给哪些权限”，但正确的第一步其实是：先弄清楚“是谁需要”。因为你给的对象不同，后续的治理策略也不同。

1.2 资源（Resource）：权限要作用到哪里

GCP 的资源层级大致包括：项目（Project）、文件夹（Folder）、组织（Organization）等。IAM 权限可以绑定在这些层级上。通俗点说就是：

你要管一个项目，就在项目层级动刀
你要管一批项目，就在文件夹层级统一管
谷歌云二要素认证 你要定公司级规则，就在组织层级设基线

权限下发策略就像公司制度：你在“总部制定规则”，下面的部门自然会执行；你在“某个部门临时写个小纸条”，长期看必然乱。

1.3 权限（Permission）：你能做什么

权限是最细粒度的操作集合，例如“读取某个存储桶内容”“创建/删除某类资源”等。问题来了：细粒度权限太多太麻烦，人类很难记住它们的编号。所以 Google 给你了一条更现实的路——用“角色（Role）”而不是手工堆权限。

二、角色（Role）是 IAM 的灵魂：别拿权限当豆豆撒

2.1 预定义角色：省心，但要选对

GCP 有大量预定义角色（Predefined Roles），比如：

Viewer：只读
Editor：编辑（通常比你想象的更“能动”）
Owner：拥有者（基本上就是“全都能干”，通常别随便给）

还有很多更贴合服务的角色，比如存储、计算、日志等服务各自的角色。建议你优先使用预定义角色，因为它们的维护成本更低，也更符合最佳实践。

2.2 自定义角色：当预定义角色不够精确时

当你发现预定义角色“要么不够用、要么太过头”，你就会用到自定义角色（Custom Roles）。自定义角色的好处是：

你可以只包含你需要的权限
你可以控制权限范围，贴近最小权限原则

但自定义角色也有代价：你得维护它，得保证未来业务变化时不会逐渐膨胀。我的建议是：能用预定义就用预定义，必须自定义时也要记录清楚“为什么需要这些权限”。

2.3 角色绑定方式：绑定到谁、绑定在哪、用什么条件

IAM 的核心动作可以理解为：

把某个身份（用户/群组/服务账号）
绑定到某个角色（预定义或自定义）
并确定作用范围（项目/文件夹/组织等）

还可以进一步用条件（Conditional IAM）控制更细颗粒度，例如基于时间、资源属性等。条件 IAM 很好，但同样容易“越用越复杂”。要把握边界：你是为了更安全，不是为了让别人看不懂。

三、最小权限原则：你不是“开权限专家”，你是“风控专家”

3.1 最小权限不是口号，是一套流程

最小权限原则（Least Privilege）听起来简单：“给需要的人最少的权限”。但落到实际，常见的失败姿势包括：

新来的人先给 Owner，忙完再说（结果忙完就永远忙到下一次了）
为了图省事，把 Editor 或宽泛权限直接丢给团队（看似效率，实际是风险）
权限长期不回收，像工资卡长期不设密码一样

正确做法通常是：

先定义角色分工与职责边界
根据业务动作映射到最合适的角色
采用阶段性授权：需要用时再扩权，事后回收
定期审计与复核（Review）

3.2 常见角色推荐：从“能用”到“够用”

给你一些思路（不是绝对答案，但能帮你避免“默认全开”）：

只需要读配置/看指标：优先 Viewer 类角色
需要管理某类资源但不需要拥有者权限：优先服务级自定义角色或服务级预定义角色
需要部署应用、管理特定服务：给最小到该服务的角色组合
Owner：一般只给平台管理员或少数运维角色，其他人尽量别碰

尤其是 Editor：很多人以为 Editor 就是“会编辑配置”，但它覆盖范围可能比你预期大。你要确认它对你的资源类型到底意味着什么。

四、层级继承与权限漂移：为什么“我明明没配，怎么也有权限？”

4.1 继承关系：从组织到项目的“顺风车”

IAM 的绑定可以发生在不同层级。通常你在组织或文件夹层级配置的角色，会对下层资源生效（具体取决于策略设置和条件）。这带来一个现实：你在某个项目里看到某个权限生效，未必是你在项目层配的。

所以你排查“为什么我能/不能做某事”时，要像查水表一样：先查总表（组织/文件夹），再查分表（项目），最后看是不是某处“临时加了阀门”。

4.2 权限漂移：权限会随着时间慢慢长歪

权限漂移指的是：随着人员变更、项目变化、需求变化，权限没有同步收回或重新校准，逐渐从“刚好够用”变成“看起来能用但风险很大”。常见诱因：

项目迁移但旧权限还留着
离职人员账号仍在
临时开通权限忘记关闭
团队调整后群组成员没更新

治理的关键是“流程化”：申请有记录、审批有依据、回收有节奏。

五、服务账号（Service Account）：机器也需要“持证上岗”

5.1 人用账号，机器用服务账号

服务账号是给应用/自动化任务使用的身份。它们常见用途包括：

谷歌云二要素认证 Compute Engine/Cloud Run 运行时访问其他服务
CI/CD 部署流水线访问资源
谷歌云二要素认证 脚本定时任务访问存储、日志、数据库等

很多事故的根源不是人的权限，而是服务账号权限过大。因为服务账号往往绑定在自动化流程上，一旦凭证泄露或配置错误，影响范围会比人的操作更“自动、更稳定、更糟糕”。稳定是好事，但灾难更稳定。

5.2 避免“一个服务账号走天下”

最佳实践通常是：按用途拆分服务账号，例如：

部署服务账号：只允许管理部署目标
读数据服务账号：只允许读取所需数据
写日志服务账号：只允许写日志

这样做的好处是权限边界清晰，即使某个服务账号出问题，也能快速定位和止损。

5.3 Workload Identity / 无密钥策略：让泄露概率趋近于“历史遗留问题”

如果你在项目里还存在服务账号密钥（Keys）那就要小心了。密钥可能被存储、被复制、被泄露。更现代的做法是用 Workload Identity Federation 或让运行时自动获取凭证，尽量减少静态密钥的使用。

当然现实里你可能还在面对历史遗留系统，那就至少做到：

密钥有轮换机制
密钥使用范围受控
定期检查服务账号密钥是否存在且是否必要

六、如何把 IAM 做成“可运营”的能力，而不是“靠运气上线”

6.1 用群组替代“点名式授权”

如果你给权限都是“一人一条绑定”，迟早你会怀疑自己当初是不是在给自己未来找麻烦。建议使用群组（Group）来进行授权：

人员变更只需要更新群组成员
权限变更集中在群组层
审计更容易追踪：看群组是谁的职责

尤其当团队规模变大，群组就是你的“权限缓冲器”。

6.2 权限配置要有“版本感”：用基础设施即代码思维

最怕的是：某个人在控制台里点点点，然后权限变了，没人知道具体改了什么。你需要把 IAM 配置纳入配置管理（例如用 IaC 的方式管理策略）。至少要做到：

变更有记录：谁在何时改了哪些策略
变更可回滚：出问题能撤回
环境一致：测试/预发/生产不要靠“手感”对齐

当权限变更变成“可审计的代码”，你就从“救火模式”进入“工程模式”。

6.3 定期复核：别等审计，提前自查

建议设定周期性的权限复核（例如每月或每季度），重点看：

高权限绑定是否合理（尤其 Owner/Editor 类）
是否存在不再工作的人员账号
服务账号权限是否仍与当前业务一致
群组成员是否漂移

复核不一定要复杂，但要有“动作”：发现问题就回收或调整，而不是把“复核记录”当成“安慰自己”的文字。

七、常见坑位地图：踩过一次你就记住了

7.1 把 Owner 当万金油

Owner 的能力基本可以概括为“你想干啥都行”。给开发人员或临时团队长期使用，往往导致：

资源被误删/误改
成本失控（比如随便开服务）
谷歌云二要素认证 审计追踪困难（因为权限太大，行为太多）

解决方式：把 Owner 控制在少数平台团队；其余角色采用“按职责授予”。

7.2 权限重复叠加：看起来有用了，实际上更危险

常见情况是：某人因为某次临时需求被加了一个角色，后来又加了另一个角色，结果权限叠加越叠越多。你需要定期做授权清理，尽量让权限组合可解释。

一个经验：权限越复杂，你越应该依赖“文档与流程”。否则最后你会忘记自己当初为什么这么配。

7.3 忘记撤销：离职/项目结束后权限还在

这是最常见的坑。解决方案也不玄学：

离职流程里包含 IAM 权限回收
项目结束有清理清单
权限申请与审批都有期限（到期自动审查或回收）

你可以把“权限回收”当成收尾工作的一部分，而不是等出事才想起。

7.4 服务账号密钥泄露：比你想象的更常见

密钥一旦被拿到，攻击者可能会用它做你本该防住的事情。建议：

尽量不用静态密钥
必要时限制密钥使用范围并做轮换
检查日志与异常访问

谷歌云二要素认证八、排错思路：当权限“突然不工作”，你该怎么查

8.1 先确认：你到底缺的是哪一步权限

权限问题通常表现为“拒绝访问”“权限不足”。第一步是看错误信息里提到的资源类型与操作动作（例如读/写/列出/删除）。然后把这个动作映射到对应服务的 IAM 角色或权限。

8.2 再确认：权限生效在哪个层级

你可能在项目层配了角色，但实际操作发生在另一个资源层级（比如组织策略、文件夹继承、或某些资源属于不同项目）。这时就要回到“绑定在哪”。

8.3 最后确认：是否存在条件 IAM 或 deny 规则

条件 IAM 会让权限在某些条件下生效或失效。你如果忽略条件，很容易“明明我配了怎么还是不行”。此外，某些策略组合也可能导致你以为有权限实际上没有。

排错的核心思路就是三问：谁在问？问哪个资源？用在什么条件下？把这三点对上，基本就能收敛问题。

九、一套可执行的 IAM 权限管理流程（建议你直接照抄改）

9.1 角色设计阶段：先把职责切清楚

梳理业务：谁需要做什么（部署、运维、读取、审计、计费等）
定义职责矩阵：人员/群组 → 角色 → 资源范围
优先使用预定义角色，不够再自定义

9.2 授权阶段：先申请再审批再落地

申请：明确理由、持续时间、影响范围
审批：审核最小权限与合规性
落地：用统一方式配置策略，避免控制台“个人操作痕迹为零”

9.3 运行阶段：可观测与可追踪

权限变更有日志与记录
服务账号使用情况有审计与告警（异常调用、失败率突增等）
关键操作要确保可审计：谁在何时做了什么

9.4 回收阶段：到期复核、离职清理、项目清场

到期复核：临时权限到期要审查是否继续
离职清理：账号回收与权限回收同时完成
项目清场：项目结束删除或收缩相关权限

十、给团队的一句“现实建议”：别把 IAM 当成一次性配置

IAM 不像一次装修：装完以后你就只负责住就行。权限管理是长期治理，你今天解决了最小权限，明天业务变了，权限又可能变得不最小。你要做的是建立“机制”：让权限申请、审批、落地、复核、回收都变得可持续。

如果你做到了，那你会发现 IAM 真的能给你带来两种很爽的感觉：

业务不再因为权限不足反复卡住（因为授权逻辑更清晰）
安全风险不再靠祈祷（因为治理流程更稳定）

结语：把权限管理做成你的“安全护城河”

GCP谷歌云IAM权限管理说到底就是：用最少的权限让事情顺利完成，用可审计的方式降低人为失误，用流程把权限长期保持在合理范围内。你不需要成为权限学家，但你需要成为“风险有边界的工程师”。

下一步如果你愿意，可以把你当前项目里的 IAM 授权方式做一次快速体检：高权限角色分配是否合理？服务账号是否有职责边界？是否存在临时权限长期未回收？群组是否替代了点名式授权？只要做这几件，你的 IAM 成熟度就会明显上一个台阶。

祝你在 GCP 里既能“放行”，也能“收口”。权限就像厨房用火：掌握火候才是正道——火大了就容易翻车，火小了又吃不上饭。