快手大数据安全治理实践_

导读快手成立于 2011 年，致力于成为全球最痴迷于为客户创造价值的公司。公司在 2022 年 Q4 时，整体的日活用户达到了 3.66 亿，月活用户达到 6.4 亿。为了支撑快手如此大的规模体量，背后有很多数据相关的建设。

快手的数据平台旨在提升决策效率和业绩。该平台通过数据中台构建数据仓库和数据服务，包括分析决策、实验决策、AB 测试和核心资产服务等。目前，快手的数据量已达到万亿级，总数据量达到 EB 级。

本次分享聚焦于数据安全，将分享快手在大数据安全治理方面的实践。

主要包括以下几大部分：

1. 背景介绍

2. 平台建设

3.治理实践

4. 成果和规划

5.问答环节

分享嘉宾｜倪顺快手大数据管理平台负责人

编辑整理｜刘洋

内容校对｜李瑶

出品社区｜DataFun

背景介绍

1. 快手大数据安全平台定位

作为上市公司，快手对于数据安全非常关注。快手大数据安全平台的主要职责是为大数据全链路、全生命周期保驾护航，保障数据安全。这里的全链路包含几个层面：

在数仓建设阶段，数据开发人员可利用平台提供的开发能力进行数据仓库建设，如基于 ODS 创建数据集市和维表。其中数据平台有完善的数据权限申请管控机制，防止机密数据泄露。
在数据采集阶段，数据平台会识别敏感数据，进行数据加密、脱敏等操作，在数据入仓时进行安全管控。
在数据应用阶段，数据平台也采取了安全措施，在数据服务或应用上对用户鉴权，确保数据资产的安全。

2. 快手大数据安全面临的挑战

在构建数据平台过程中，面临多项挑战：

通用性：系统覆盖范围广泛，涉及 30+ 系统，需具备较强的通用性。
精细化管控：分为三个层面，首先是资源精细化，涵盖报表、数据集、指标、维度库表等异构资源；第二是操作类型精细化，包含读写操作；第三是账号精细化，包含个人账号和多租户体系账号，需做好权限管控和隔离。
高可用：认证和鉴权处于数据服务核心链路，一旦异常影响范围非常大，因此对安全要求极高。
扩展性：业务需求灵活多变，需满足多种业务线的权限管控要求，对扩展性提出了较高要求。

3. 快手大数据安全建设思路

为了应对数据平台建设面临的挑战，快手的建设思路围绕着几个方向展开：

首先是组织规范，快手成立了数据委员会、信息安全委员会等虚拟组织，制定了数据分类分级规范、数据权限规范、数据安全隐私打标规范等，还建立了专门的安全平台组，负责落地这些规范。
其次，建设原则兼顾安全与效率，制定了分级审批流程，并建立了协调机制。既要保证安全，又要提高效率。
最后，在安全原则方面，遵循相关法律法规，并遵循最小权限原则。

平台建设

1. 发展历程

大数据安全平台的发展历程可分为四个阶段：

原始阶段，数据平台主要是围绕报表平台建设，当时落地了初级的权限管理；权限模型基于 RBAC；安全能力处于 2A 级，包括鉴权、申请权限等，整体相对原始。
发展阶段，引入了 RPAC 权限模型，增强了权限控制，并扩展系统覆盖，涵盖了引擎类系统（如 Hive）。
精细化建设阶段，引入了行级权限（PRBC），实现了更精细的权限控制；加强租户数据隔离，保障数据安全；迭代安全能力，达到 4A 级别，完善了认证体系以及全链路审计。
数据合规建设阶段，聚焦隐私数据保护，引入加解密脱敏、安全隔离舱等能力，实现了 5A 级能力；系统覆盖扩展至 Druid、CK、Kafka、HDFS 等平台；持续推进数据合规建设，保障数据安全。

2. 建设思路

安全平台建设思路围绕以下三个方面展开：

全域覆盖，涵盖存储引擎、中台系统（如生产平台、分析平台）、分析决策平台等系统。
全能力建设，基于 5A 方法论，构建认证、授权、访问控制、资源保护、审计等全方位安全能力。
全生命周期管控，事前重点关注隐私数据合规性，通过数据安全打标、隐私数据打标等措施，加强数据加密和权限控制；事中关注认证鉴权稳定性；事后基于审计日志，构建安全态势感知能力，识别异常访问行为，制定风险策略，保障数据安全。

3. 系统架构

系统采用多层架构，包括：

应用层：面向用户，提供应用服务。
安全平台核心层：包含插件层、接口层、服务层和存储层。
依赖层：提供外部依赖，如租户账号体系和资源体系。

核心层包含以下模块：

插件层：满足不同引擎的特点，实现权限鉴权。
接口层：提供 HTTP 和 RPC 接口，面向中台应用和开发平台。
服务层：统一接入资源和账号，提供权限授予和管理服务。
存储层：自动缓存和加速数据，提高访问效率。

为保障系统高可用和高性能，该系统提供了完善的监控、告警、降级、容错预案、演练限流等保障措施。

4. 关键技术 – 认证体系

认证体系旨在验证用户的身份。在设计认证体系时，我们面临以下挑战：

轻量化：避免对现有系统造成较大影响。
本地化：与组织体系相结合。
易演化：满足未来国际化探索等新的业务需求。

我们借鉴业界成熟方案，自研了一套基于三方无密钥传输的认证体系。认证过程包含三次网络通信：客户端身份验证、获取有效期内访问令牌、后台服务令牌验证。认证体系包含以下关键点：

账号体系：包括个人账号和组账号。
令牌类型：包括常规访问令牌、代理访问令牌和降级令牌。
降级令牌机制：确保在密钥分发中心异常时，不影响当前访问。

5. 关键技术 – 权限模型

权限模型用于控制用户对资源的访问权限。业界常见的权限模型包括：

访问控制列表 (ACL)：直接建立用户和资源之间的关系，每次访问时检查用户是否有权限。
基于角色的访问控制 (RBAC)：引入角色的概念，角色与资源绑定，用户通过加入角色继承权限。
基于策略的访问控制 (PBAC)：引入策略概念，根据主体的属性、环境或客体的属性综合判断访问权限。
基于属性的访问控制 (ABAC)：与 PBAC 类似，但更强调属性在访问控制中的作用。

快手由于资源复杂、账号体系本地化等特点，结合 RBAC 和 PBAC 自研了基于策略的角色访问控制 (PRBAC) 模型。PRBAC 模型以策略为核心，涵盖以下四个方面：

主体：自定义用户组、租户账号。
资源：统一标识符 (UIN)，由公司域、资源域和唯一 ID 组成。
动作：读、写等常见动作。
条件：行级权限的关键所在，根据 SQL 查询中的 WHERE 条件判断访问权限。

6. 关键技术 – 统一鉴权

鉴权体系可分为两类：

应用系统类：QPS 较低，延迟容忍度较高，与快手体系结合良好，可直接集成中间件框架和访问远程鉴权服务。
大数据引擎类：与大数据框架结合较少，基于开源引擎改造，提供鉴权插件，根据引擎特性选择本地或远程鉴权模式。

对于鉴权核心服务，包括：

自动化刷新器：增量或全量加载数据。
本地数据缓存：异常后快速恢复。
鉴权引擎：权限模型和策略规则计算，从而实现灵活的鉴权规则判断。

7. 关键技术 – 全链路审计日志

全链路审计旨在追踪数据泄露的源头，包括生产系统、应用系统、Hive 引擎、HDFS Server 等环节。审计基于上游数据源，实时收集资产操作日志、访问日志和下载日志。审计日志经过转换处理，例如展开 Hive 上下文，便于后续审计。审计日志用于清查和策略构建，如审批日志策略。全链路审计的特点包括：

全链路覆盖
融合血缘信息
审计格式统一
支持实时风险告警

治理实践

接下来将具体介绍快手数据治理实践中的重点问题和解决方案。

1. 数据分类分级

首先要介绍的是分类分级。分类分级旨在将数据按敏感性划分为不同级别，优先处理高敏感数据。

分类：原先融合在一起的数据现已区分开，隐私数据单独列出。通用数据和隐私数据均按公开级别分级，通用数据分为 C1 至 C4 级（公开级、内部级、机密级、原密级），隐私数据分为 P1 至 P4 级。
分级：分级后，不同敏感级别的数据将采取不同的保护措施。例如，C4 级和 P4 级数据将采用更严格的审批流程，涉及部门负责人和二级部门负责人审批。此外，这些数据在存储时将采取加密或脱敏等保护措施。

数据分类分级遵循以下原则：

升级原则：如果表中存在敏感信息，则整表按最高标准处理。
降级原则：数据脱敏或匿名化后，可降低其敏感级别。

数据分类分级流程分为三个阶段：

元数据采集：通过元数据中台自动采集外部平台的数据源、数据表变更信息，并存储至元数据中心和图库中。
基于元数据，采用以下三种方式进行自动化识别，其中，血缘识别：分析表血缘、任务血缘等，识别敏感字段并进行打标。算法检测：使用算法检测特定数据类型，如银行卡号。规则模板匹配：匹配内置的个人信息识别规则模板，如姓名、手机号、银行卡号等。
数据大盘分析，识别后，将数据推送给用户进行二次确认和打标。同时，提供事后资产大盘，帮助用户从个人、组织、部门等视角审查资产分布情况。

2. 数据引擎安全