快手日入数据量超 5120TB,数据管治如何做?
近日,快手大数据团队联合“快手中学”,举办“快手数据管治技术交流会”,各行业数据相关开发者报名参与。在海量的 UGC 数据、业务数据、用户数据背后,支撑快手数据业务的快手大数据平台,秉承“以领先的大数据技术,激活数据价值,赋能业务,打造快手核心竞争力”的使命。
日处理数据集群规模超过 3W,数据量超过 3EB,日入数据量超 5PB(5120TB),例行任务数超 30W。今年9月,快手曾围绕“数据架构”这一主题举办了“快手大数据平台架构技术交流会”。本次交流则聚焦“数据管治”主题,明年将继续开展更多数据领域相关主题活动。

首先由快手数据工厂团队负责人董西成带来开场致辞。他介绍,快手在数据管治领域涉及的方面非常广泛,包括数据规范、资源控制、集成交换、数据建模等,为了推进数据管治,需要在技术产品、规范流程、组织等方面进行考虑。

本次交流从数据管治的标准规范、资源管控、数据质量和数据服务四个方面展开分享,由来自快手的数据研发专家孙伟、程伟、杨钊、薛言、刘一凡分别带来五个主题演讲。
孙伟介绍了快手在数据中台化过程中由于模型不规范带来的数据孤岛、指标不一致、模型质量差等一系列问题,并针对这些问题结合元数据驱动的思路制定了治理方案,从元数据驱动问题的发现再到治理优化,最终实现数据模型的规范化。
从快手 EB 级数据量下对于存储成本管理所遇到的涉及面广、成本意识弱、缺乏有效方法等问题出发,程伟站在成本分析的角度,制定相应的存储成本控制策略,并以专项数据治理和自驱式数据管理相结合的方式去推进落地,从而达到存储成本管理的目的。
杨钊分享了快手的数据保障理念,并通过体系化的方式,保障数据完整、准确、一致、及时。基于上述保障体系,详细介绍了快手在直播场景通过需求流程管理、测试、质检、应急方案等保障策略,以及这些保障策略在直播事前、事中、事后具体的执行手段,如双链路设计、压力测试、应急方案制定等,保障了在数据量巨大,指标计算复杂等困难情况下,依然能够保障整个数据产品的产出及时,数据准确。
当谈到元数据平台和相关应用在快手的发展过程、现状及当前快手元数据平台的架构时,薛言分析了面对数十种的资产、过亿的实体规模的异构元数据,是如何进行抽象及管理的。并通过找数、全链路血缘、数据治理平台等几个主要的应用场景,展示了元数据在快手大数据平台中发挥的作用和价值。
刘一凡介绍了快手在数据中台化建设过程中,在指标领域建设所面临的缺乏流程、规范引起的口径不一致、反复梳理重构、缺乏统一服务引起的数据出口不一致等问题。并针对上述问题分享了流程、规范、组织以及系统方面的整体解决思路,重点阐述了 OneMetric 以及 OneService 两个核心系统模块的系统设计及其关键技术。
快手以技术为核心竞争力,十分重视技术创新和应用,同时也希望通过更多更广泛的技术交流,和业内开发者分享经验,碰撞出更多智慧火花,推动技术不断前进。
(大会PPT下载地址:https://github.com/CN-CJ/KwaiTechnologyCommunication)
相关文章:

LINUX创建www的用户组和用户,并且不允许登录权限:
# id www id: www:无此用户 # groupadd www # useradd -g www -s /sbin/nologin www # id www uid501(www) gid501(www) 组501(www) 转载于:https://www.cnblogs.com/cnbing/p/6957239.html

GridView自定义分页导航
自己做的一个项目中所运用到的技术:| 1. 日历控件(带时分秒)2. GridView 批量删除,自定义分页,定位页码3. GridView 修改4. GridView 鼠标经过改变行的颜色效果如下:HTML:<% Page L…

一文看懂AI数据采集标注未来三年的发展和趋势
影响人工智能发展的三大要素分别是数据、算法、算力,限于篇幅,本篇内容将重点分析未来几年内人工智能所需要的数据趋势及探讨数据服务商发展方向。 作为AI数据采集标注的领先企业,云测数据分析认为人工智能在经历了算法研究、技术扩张和商业落…

HTTP 状态代码及其定义
相关文章:http://ruby-china.org/topics/12384 所有 HTTP 状态代码及其定义。 代码 指示 2xx 成功 200 正常;请求已完成。 201 正常;紧接 POST 命令。 202 正常;已接受用于处理,但处理尚未完成。 203 正常࿱…

html5地理定位数据
2019独角兽企业重金招聘Python工程师标准>>> <html><head><meta charset"UTF-8"/> <meta name"viewport" content"widthdevice-width, initial-scale1.0"><script type"text/javascript">fu…

GridView控件修改、删除示例(修改含有DropDownList控件)
GridView控件修改、删除例子,修改时含有DropDownList控件。示例运行效果图:GridViewUp.aspx文件代码: <% Page Language"C#"AutoEventWireup"true"CodeFile"GridViewUp.aspx.cs"Inherits"gridview_Gri…

国产AI芯片加速,鲲云携手浪潮推出数据流AI服务器
近日,鲲云科技携手浪潮基于星空X3加速卡推出新一代的数据流AI服务器,定位高性能图像视频智能分析的AI计算加速,支持智慧城市、智能制造、智慧油田、智慧工地、智算中心等典型AI应用场景,这是双方“元脑生态计划”战略签约后推进的…

织梦dedecms如何快速使用拼音首字母做栏目名称
织梦默认使用拼音为保存目录的时候使用的是中文全拼,当遇到栏目名称比较长的时候目录名称看起来有点冗长,这时候大多数站长喜欢使用拼音首字母作为栏目的保存目录,那么有没有什么快速的办法能让我们快速的使用首字母作为栏目名称呢࿱…

移动应用AI化成新战场?详解苹果最新Core ML模型构建基于机器学习的智能应用...
Google刚刚息鼓,苹果又燃战火!这一战,来自移动应用的AI化之争。近日,苹果发布专为移动端优化的Core ML后,移动开发者对此的需求到底有多强烈?去年大获成功的AI应用Prisma又能告诉我们什么?苹果的…

mysql5.1 与mysql5.5 字符集设置区别
在mysql5.1版本中设置字符集[mysqld]default-character-setutf8在mysql-5.5中设置字符集[mysqld]character_set_serverutf8转载于:https://blog.51cto.com/enable/1247132
@所有技术社区,年度”社区之星“开选,快来盘点各家技术大佬
活动简介那些积极探索技术边界并持续对社区做出贡献的开发者是真正的技术英雄,是开发者的学习榜样,也是各个技术社区发展的生命力!2021年伊始,CSDN 为所有技术社区特别准备了一份年终福利!CSDN 向所有技术社区…

Gridview][UpdateCommand的写法要点]
在ASP.NET2.0中的GridView为我们浏览更新数据提供了一个方便的途径。我们只需要添加一个sqldatasouce控件和一个GridView,再为sqldatasource写上正确的UpdateCommand语句就可以达到自动更新数据的目的。基本上无需手写更新代码:但在写UpdateCommand语句时࿰…

BZOJ 1040 ZJOI2008 骑士 树形DP
题目大意:给定一个基环树林,每一个点上有权值,要求选择一个权值和最大的点集,要求点集中的随意两个点之间不能直接相连 最大点独立集……考虑到n<100W,网络流铁定跑不了,于是我们考虑树形DP 对于每棵基环…

在GridView内访问特定控件
本文我将为你演示如何访问GridView中的特定控件。我们会看到怎样去访问TextBox控件,DropDownList控件以及ListBox控件。 添加控件到GridView: 你可以简单地使用 <ItemTemplate>选项在GridView控件中增加不同的控件。 填充列表框和下拉框控件 第…

解决 apache 2.4.1 无法解析shtml中的expr指令问题
2019独角兽企业重金招聘Python工程师标准>>> apache 2.4.1上运行内嵌<!--#if expr${mobile}-->的shtml格式文件,在页面上提示一下错误: [an error occurred while processing this directive] SSI对shtml格式的配置是正常的,…

新华三发布H3C Workspace数字工作空间:只需一张屏,程序员也能随时随地在云上写代码
随着数字时代的不断发展,工作模式经历了面对面的“纸笔”模式、办公室场景下的“PC电脑”模式、以及远程办公场景下的“手机协同软件”模式,如今,尤其伴随2020年的疫情催生,更迎来以“云屏”架构为核心的未来工作模式。 “云屏”…

centos 安装 NTFS支持
2019独角兽企业重金招聘Python工程师标准>>> 参考的原文网址: centos安装完之后,默认是不支持NTFS磁盘格式的,解决的方法之一就是安装NTFS-3G模块,但是默认的软件源是没有这个依赖库的,我们需要额外的阿里云…

linux基本命令详解の第一季
linux常用命令一:文件名命名规则1)除了/之外,所有的字符都合法。 2)有些字符最好不用,如,空格、制表符、退格符和字符#¥%()-等。 3)避免使用.作为普通文件名的第一个字符,在linux系统…

asp.net 2.0中一次性更新所有GRIDVIEW的记录
在asp.net 2.0中,gridview控件是十分不错的控件。有的时候,可能一个GRIDVIEW控件中 的各行都是文本框,如何一次性更新所有修改过的记录呢?有两种方法,一种是使用sqldatasource来更新 所有记录,但这个方法比…
清华 CVer 对自监督学习的一些思考
来源 | Jack Cui责编 | 晋兆雨头图 | CSDN 下载自视觉中国众所周知,机器学习大致可分为有监督学习和无监督学习。自监督学习作为无监督学习的一个特例,可以理解它是一种没有人工标注标签的监督学习,即没有人类参与的监督学习。但标签仍然存在…

使用 HTML5 时如何改进移动 Web 应用开发
因为 HTML 有易于维护,更好的互动性,更快的开发等优点,被越来越多的应用在移动 Web 应用程序的开发中。HTML5 是一种标记语言,与 Javascript 和 CSS 一起,构成了每个开发者的核心技术,HTML5 拥有自己的 API…

hibernate.cfg.xml详细配置
<!--标准的XML文件的起始行,version1.0表明XML的版本,encodinggb2312表明XML文件的编码方式--> <?xml version1.0 encodinggb2312?> <!--表明解析本XML文件的DTD文档位置,DTD是Document Type Definition 的…

ASP.NET2.0中用Gridview控件操作数据
在ASP.NET 2.0中,加入了许多新的功能和控件,相比asp.net 1.0/1.1,在各方面都有了很大的提高。其中,在数据控件方面,增加了不少控件,其中的Gridview控件功能十分强大。在本文中,将探讨Gridview控…
人工智能在消费领域,都做了哪些事?
来源 | 人民数字FINTECH责编 | 晋兆雨头图 | CSDN 下载自视觉中国#AI正在融入生活的方方面面近日,北京一购物中心开业,在开业当天迎宾的并不是“人”而是“机器人”。在这里你可以体验到高科技高颜值的机器人“迎宾团”给你带来的贵宾级的服务࿰…

poj 1681 Painter#39;s Problem(高斯消元)
http://poj.org/problem?id1681 求最少经过的步数使得输入的矩阵全变为y。 思路:高斯消元求出自由变元。然后枚举自由变元,求出最优值。注意依据自由变元求其它解及求最优值的方法。 #include <stdio.h> #include <algorithm> #include <…

ASP.NET 2.0中GRIDVIEW排序
在 headertemplate中加一张UP.GIF和DOWN.GIF(就是升序,倒序的示意图) % Page Language"C#" %> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd"> <html…

基础篇9-python基本数据结构-列表
基础篇9-python基本数据结构-列表一.列表:1.有序的集合2.通过偏移来索引,从而读取数据3.支持内嵌a [[1,2,3],[4,5,6]]4.可变类型a[0][1] 7二.切片a [1,2,3,4,5,6,7]a[0:3:1]0 索引开始3 索引结束1 间隔(默认1)正向索引 它是从左往右索引假如要取出1234…

用AI打造科技公益新模式,腾讯发起公益创新挑战赛,聚焦三大社会问题
近日,由腾讯基金会、企鹅伴成长、腾讯优图实验室、腾讯云AI、腾讯云开发联合发起的腾讯Light公益创新挑战赛在三亚宣布正式启动。本次比赛以“AI,让美好现在发生”为主题,与联合国儿童基金会、深圳市信息无障碍研究会、桃花源生态保护基金会三…

一个查看全部用户的磁盘空间使用情况的脚本
一个查看全部用户的磁盘空间使用情况的脚本 脚本程序例如以下: #!/bin/sh for user in ls /home dodu -hs "/home/"$user done脚本运行结果: [rootsyy ~]# . homeusage.sh 32K /home/saleli 9.2G /home/syy 500K /home/wph太简单了…

Gridview导出到Excel,Gridview中的各类控件,Gridview中删除记录的处理
Asp.net 2.0中新增的gridview控件,是十分强大的数据展示控件,在前面的系列文章里,分别展示了其中很多的基本用法和技巧(详见< ASP.NET 2.0中Gridview控件高级技巧>)。在本文中,将继续探讨有关的…