登陆

极彩娱乐官网版下载-优酷背面的大数据隐秘

admin 2019-06-16 413人围观 ,发现0个评论

在本文中优酷数据中台的数据技能专家门德亮共享了优酷从Hadoop搬迁到阿里云MaxCompute后对事务及途径的价值。

本文内容依据讲演视频以及PPT收拾而成。

咱们好,我是门德亮,现在在优酷数据中台做数据相关的工作。很侥幸,我正好见证了优酷从没有MaxCompute到有的这样一个进程,由于刚刚好我便是入职优酷差不多5年的时刻,咱们正好是在快到5年的时分,去做了从Hadoop到MaxCompute的这样一个晋级。这个是2016年5月到2019年现在的5月优酷的开展进程,上面是核算资源,下面是贮存资源。咱们能够看到整个用户数,还有表的数据,实际上是在呈一个指数式增加的。可是在2017年5月,当优酷完成了整个Hadoop搬迁MaxCompute后,优酷的核算耗费,还有贮存的耗费实际上是呈下降趋势的,整个搬迁得到了一个十分大的收益。

下面说一下优酷的事务特色。

第一个特色从大数据途径整个的用户杂乱度上面,不止是数据的同学和技能的同学在运用,还会包含一些BI同学,测验同学,乃至产品运营都或许去运用这个大数据的途径。

第二个特色便是事务杂乱,优酷是一个视频网站,它有十分杂乱的事务场景,从日志分类上,除了像页面阅读,还会有一些播映相关的数据、功用相关的数据。从整个的事务形式上,有直播、有会员、有广告、有大屏等这样一些十分不一样的场景。

第三个特色,便是数据量是十分巨大的,一天的日志量会到达千亿等级,这是一个十分旁大的数据量,并且会做十分杂乱的核算。

第四个是比较有意思的,不管是小公司、大公司,对本钱的认识是十分高的。优酷也是有十分严厉的预算,包含在阿里集团内是有十分严厉的预算系统的,可是咱们也常常会去做一些重要的战争,像双十一战争,像咱们暑期的世界杯战争,还有新年也会搞各种战争。这样的话,其实对核算资源的弹性要求是十分高的。

根据上面的优酷的事务特色,我收拾了MaxCompute能够完美的支撑咱们事务的几个特色。

第一个,简略易用。

第二个,完善的生态。

第三个,功用十分强悍。

第四个,资源运用十分弹性。

第一个特色,简略易用。MaxCompute有一个十分完好的链路,不管是从数据开发,仍是数据运维,包含数据集成,数据质量的管控,还有整个数据地图,数据安全。当年优酷从Hadoop迁到MaxCompute之后,咱们最大的体会是自己不必深夜常常起往来不断保护集群了,不必去跑使命了,写一个使命,他人之条件一个需求过来,我或许要给他排几周,而现在我能够告知他,我给你立刻跑一下,就能够出来了。包含之前像剖析师BI还要登录客户端,写脚本,自己写调度,常常会说我的数今日为什么没出来?包含高层看的数,或许要到12点钟才干出来。而现在根本上一切重要的数据都会在7点钟产出,包含一些根本的事务需求,其实剖析师或许产品,他们自己都能够完成了,不需求一切需求都说到数据这边。

第二个特色,完好的生态。优酷在2017年之前是彻底根据Hadoop的生态,迁到MaxCompute之后,是根据阿里云供给的Serverless大数据服务的生态。咱们能够在开源上看到的组件,在整个的MaxCompute上都是有的,并且比开源的要更好用、更简略。从架构图上能够看到,咱们中心是MaxCompute,左边依靠的Mysql、Hbase、ES、Redis这些都是由同步中心去做一个双向的同步。右侧会有资源办理、资源监控、数据监控,包含数据财物,还有一些数据标准。咱们基层的数据输入,包含一些集团的收集东西,再往上边,有供给给开发人员用的DataWorks,包含一些指令行的东西;有供给给BI人员用的QuickBI及数据服务。

第三个特色,强悍的功用,MaxCompute支撑了优酷EB级的数据存储,千亿级的数据样本剖析,包含千亿级的数据报表,10W级实例的并发、使命。这些在之前保护Hadoop的时分,是想都不敢想的。

第四个特色,资源运用的弹性。咱们在2016年搬迁之前,其实优酷的Hadoop集群规划现已到达了一千多台,这个其时仍是一个比较大的规划。其时咱们遇到了许多问题,包含像NameNode 这种内存的问题,机房没有办法再扩容的问题,其时是十分苦楚的,包含一些运维办理上面的问题。咱们不断的去问运维要资源,运维告知说,说你们现已花了多少多少资源,花了多少多少钱。咱们面对的问题是核算资源怎样按需运用,夜里的时分作业许多,到了下午之后,我的整个集群都空下来了,没有人用,形成了糟蹋。其实MaxCompute完美的处理了这个问题。

第一个,它是按用量计费的,不是说给你多少台机器,然后就收你多少钱的,真的是你用了多少资源收多少钱的,这个在本钱上来说,比自己去保护集群,或许是一个砍半(降50%)这样的收益。

第二个,实际上MaxCompue核算资源是能够分时的,比方说出产行列,清晨的时分会调高一些,确保报表能够赶快出来。到白日时分,让开发的核算资源高一些,能够让剖析师、开发去暂时跑一些数据,会更顺利一些。

第三个,MaxCompute快速的扩容才极彩娱乐官网版下载-优酷背面的大数据隐秘能,比方说忽然有一个比较强的事务需求,发现数据跑不动了,核算资源不行,一切的行列都堵死了,这个时分其实能够直接跟运维说一声,帮助一键扩容,他两秒钟敲一个指令就搞定了。这样的话,一切的资源能够敏捷的消化下去。

上面是优酷为什么选用MaxCompute,下面是在优酷的事务场景下,咱们一些典型的计划、运用。这张图实际上是优酷,包含或许现在阿里集团内部一些十分典型的技能架构图。中心能够看到,MaxCompute在中心中心的方位,左边主要是一个输入,右侧是一个输出的趋向,绿色的线是一个实时的链路,包含现在咱们从整个的数据源上,比方DB也好或许服务器的本地日志Log也好,咱们经过TT&Datahub存储到MaxCompute上面做剖析。当然现在十分火的Flink实时核算,其实是作为一个实时处理的链路。

包含DB的同步,除了实时的链路,DB也会去经过按天/按小时,把数据同步到MaxCompute,数据核算成果也能够同步到Hbase、Mysql这种DB上面。再经过一致的服务层对运用供给服务。下面这个是机器学习Pai做的一些算法练习,再把练习的成果经过OSS传到一个算法的运用上面去。

这张图或许也是业界比较盛行的一个数仓分层的图,由于咱们这边是数据中台,一切的数据都是一致从ods层cdm层,然后ads层,去一层一层的往上去做精密,再到最上面,经过接口服务、文件服务、SQL服务,去供给多样化的服务。再往上面,供给对内的一些数据产品,对高管、对小二,或许还有一些对外的,比方说像优酷的播映数,包含热度这些对运用的数据。

这张图其实便是咱们从Hadoop迁到MaxCompute途径上以来,两个十分经典的事例。咱们经过数据中台对不同场景的用户打通,往来不断赋能到两个不同的场景,进步事务价值。

第二个,或许是内部的,咱们经过优酷,还有集团内部的一些B极彩娱乐官网版下载-优酷背面的大数据隐秘U去做换量,咱们经过一致的标签去做样本扩大,把优酷的量导给其它的BU,把其它BU的量导给优酷,这样去到达一个共赢的作用。

这张图大部分互联网公司不太会涉及到,便是关于反做弊的问题。这个是咱们在MaxCompute做的一个反做弊的架构,经过原始的数据去提取它的特征,然后再经过算法模型,包含机器学习、深度学习、图模型去支撑流量反做弊、途径反做弊等等。再经过事务场景上反做弊的监控东西,把监控到的做弊信息去打一个是非样本,再把这个是非样本跟特征一起来不断的迭代优化算法模型。一起针对算法模型,做一个模型的点评,不断来完善反做弊系统。

最终一点,其实仍是跟本钱相关,在日常运用中,一定是有小白用户或许一些新来的用户去过错的运用或许不在乎的运用一些资源,比方常常会有一些实习生或许是非技能的同学,如剖析师,一个SQ极彩娱乐官网版下载-优酷背面的大数据隐秘L消费比较高,这个其实是十分糟蹋资源,并且或许他一个使命,让其他一切人的使命都在这儿等着排队,实际上咱们会去对整个的资源做一个管理。

从节点的粒度上,经过大数据来管理大数据,咱们能够算出哪些表产出来之后,多少天没有被读取的,包含它的拜访跨度或许没有那么大的,咱们会去做下线或许去做管理,有一些事务场景或许并不是十分的重要或许它的时刻要求没有那么高,比方一些算法练习,能够去做一些错峰的调度,确保水位不要太高。从MaxCompute使命的视点,能够算出哪些使命有数据歪斜、哪些数据或许会有类似核算,哪些使命需求去做MapJoin,哪些使命需求去做一些裁剪,然后来节约它的IO。还有哪些使命会去做暴力扫描,扫一个月、扫一年的数据,哪些数据或许会有这样一个数据胀大,比方说它做了CUBE之类的这种杂乱核算,一些算法模型的迭代;咱们经过数据核算出来的这些痕迹,去反推用户,往来不断进步它的这样一个数据的质量分,往来不断到达咱们下降整个核算资源的意图。

在核算途径的视点,咱们也继续的在运用MaxCompute推出的一些十分高档的用法,比方咱们这边的HBO、Hash Cluster、Aliorc;

第一个,HBO便是咱们根据一个前史的优化,这样避免了用户不知道怎样调参,我或许为了自己使命快一点,就调一个特别大的参数,这样的话,对集成的资源是十分糟蹋的。经过这个功用,用户就不必去调参数,集群主动调好,用户就写好自己事务逻辑就好了。

第二个,或许便是最近两年推出的Hash Cluster,其时在运用Hadoop的时分常常会呈现,两个大表Join的时分核算不出来,这个Hash Cluster其实是一个优化的利器。大表跟小表Join,能够做一些分发,做一些优化。大表跟大表就涉及到一个排序的问题。这个Hash Cluster,实际上便是提早把数据排好,中心省掉许多核算环节,来到达功率进步的意图。

第三个,Aliorc,在一些固定的场景上面,能够安稳的进步20%的核算功率。

第四个,Session。对一些比较小的数据,直接就放到SSD或缓存里边,一个节点下流有100个叶子场景,是十分友爱的,由于低推迟秒出成果。一起,优酷也在运用Lightning处理核算加快,这个是在一个核算架构计划上的优化,它是一个MPP的架构。

最终一页是存储的优化,由于像一些要害的原始数据或许是需求审计的数据是不能删的,永久不能删的。实际上就会形成咱极彩娱乐官网版下载-优酷背面的大数据隐秘们数据存储的趋势是一向往上不减的,核算会在某一个时刻点到达一个平衡。当时用这么多的核算资源,再往后缱绻,其实应该也不会再大涨了,比方说旧的事务逻辑下掉了,会换新的事务逻辑,这样会保持在一个相对平稳的动摇上面。可是贮存,由于它有一些前史的数据是永久不能删的,或许会呈现一向在增加,并且是指数级的。所以咱们也会继续重视存储的状况,仍是经过大数据来治大数据,去看哪些表的拜访跨度比较小,往来不断做生命周期的优化,往来不断操控它的增速。还有方才说到的Aliorc,实际上也是做紧缩的。咱们会去做一些大字段的拆分,来进步紧缩的份额。

OK,这个是优酷在MaxCompute中的一些运用场景,感谢咱们的倾听。

---------------极彩娱乐官网版下载-优酷背面的大数据隐秘------------------------

本文作者:隐林

原文链接:https://yq.aliyun.com/articles/705113?utm_content=g_1000062400

本文为云栖社区原创内容,未经答应不得转载。

声明:该文观念仅代表作者自己,搜狐号系信息发布途径,搜狐仅供给信息存储空间服务。
请关注微信公众号
微信二维码
不容错过
Powered By Z-BlogPHP