当前位置: 首页 > 编程日记 > 正文

Flink 基本原理与生产实践分享【入门必读,概念清晰】

Flink 基本原理与生产实践分享【入门必读,概念清晰】

https://zh.wikipedia.org/zh-hans/Apache_Flink

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。

Flink提供高吞吐量、低延迟的流数据引擎以及对事件-时间处理和状态管理的支持。Flink应用程序在发生机器故障时具有容错能力,并且支持exactly-once语义。程序可以用Java、Scala、Python和SQL等语言编写,并自动编译和优化到在集群或云环境中运行的数据流程序。

Flink并不提供自己的数据存储系统,但为Amazon Kinesis、Apache Kafka、HDFS、Apache Cassandra和ElasticSearch等系统提供了数据源和接收器。

概述

Apache Flink的数据流编程模型在有限和无限数据集上提供单次事件(event-at-a-time)处理。在基础层面,Flink程序由流和转换组成。 “从概念上讲,流是一种(可能永无止境的)数据流记录,转换是一种将一个或多个流作为输入并因此产生一个或多个输出流的操作”。

Apache Flink包括两个核心API:用于有界或无界数据流的数据流API和用于有界数据集的数据集API。Flink还提供了一个表API,它是一种类似SQL的表达式语言,用于关系流和批处理,可以很容易地嵌入到Flink的数据流和数据集API中。Flink支持的最高级语言是SQL,它在语义上类似于表API,并将程序表示为SQL查询表达式。

编程模型和分布式运行时

Flink程序在执行后被映射到流数据流,每个Flink数据流以一个或多个源(数据输入,例如消息队列或文件系统)开始,并以一个或多个接收器(数据输出,如消息队列、文件系统或数据库等)结束。Flink可以对流执行任意数量的变换,这些流可以被编排为有向无环数据流图,允许应用程序分支和合并数据流。

Flink提供现成的源和接收连接器,包括Apache Kafka、Amazon Kinesis、HDFS和Apache Cassandra等。

Flink程序可以作为集群内的分布式系统运行,也可以以独立模式或在YARN、Mesos、基于Docker的环境和其他资源管理框架下进行部署。

状态:检查点、保存点和容错

Apache Flink具有一种基于分布式检查点的轻量级容错机制。检查点是应用程序状态和源流中位置的自动异步快照。在发生故障的情况下,启用了检查点的Flink程序将在恢复时从上一个完成的检查点恢复处理,确保Flink在应用程序中保持一次性(exactly-once)状态语义。检查点机制暴露应用程序代码的接口,以便将外部系统包括在检查点机制中(如打开和提交数据库系统的事务)。

Flink还包括一种名为保存点的机制,它是一种手动触发的检查点。用户可以生成保存点,停止正在运行的Flink程序,然后从流中的相同应用程序状态和位置恢复程序。 保存点可以在不丢失应用程序状态的情况下对Flink程序或Flink群集进行更新。从Flink 1.2开始,保存点还允许以不同的并行性重新启动应用程序,这使得用户可以适应不断变化的工作负载。

-------------------------------------------

下面是小象学院的公开课,原始地址在:http://www.chinahadoop.cn/course/1102

下面是我以前的听课笔记,花了很多时间自己一个字一个字敲出来的,想想还是分享给大家看看,这样其他人就不用按暂停来写听课笔记了。

原讲座时间:2018.1.29    作者:罗江宇

实时计算的一些基本概念

有界数据:在离线层面很常见,读文件最终会结束就是有界。

实时计算用有界数据计算无界数据,比如几分钟的。实时计算就是处理无界数据的。

事件时间:事件产生的时间,一条日志产生的时间

处理时间:实时计算处理时候的时间。

窗口:最近一分钟或者几分钟的数据进行切割聚合,窗口就是切分有界数据。

水位线:水位线以下的事件已经到齐就是一个标准。

触发器:很多情况就是和窗口结合,触发窗口里的数据计算

转换:也称算子。

at-most-once:数据计算至多一次,会丢数据,很少用。

at-lease-once:最少处理一次,数据传输计算肯能会重复计算,有数据重复的情况

at-exactly-once:整一次,会有性能损失。

blink:SQL 方面做了很多改进,还有就是onyarn做了很多改进。

自己公司是Flink千万级每秒

其他引擎是用微批 ,10秒或者1秒一批,就会影响延迟。

用系统时间计算窗口会丢失一些时间,用eventtime就不会丢。

状态:机器宕机,可以恢复。一个有状态的算。

storm:因为进程挂掉,导致状态丢失。storm已经没人用了,jstorm只是在其上做一些优化。

支持者at-least-once.

从kafka消费一个数据,再写到kafka。管理应用有很多为问题,稳定性也有问题,比如进程挂了。

一进来数据就是微批做了切割。低延迟很难达到。ss2.2做了一个融合离线和实时写法一样。也会支持全流式。

部署:local IDE底下做一些测试;

cluster:standalone:利用率比较低。

onyarn:提高机器利用率。

datastreamAPI:流式处理的API

datasetAPI:批量处理,是通过流式处理做批处理。

用flink还是流失的多。

CEP:复杂事件处理。有做用户行为分析,实时分控,提高分控吞吐量,业界有些吞吐量不行。

SQL+CEP和动态CEP,因为用户写代码很复杂。

要先有数据构建一个数据流,一开始上面代码还少了一块要构建流失环境变量。选择是dataset还是datastream.

source:数据源,从kafka读。读完后做一些转化。这里Map这个算子就是1对1的概念。

10秒聚合统计这个id的次数。

整体是来一条数据就流下去,象工厂的流水线一样。

并行度:多少个线程去跑。

数据切割,一个算子

timewindow:按时间切割,等时间的。这个实际用的最多。

Count :按事件的个数。

滚动window:时间是对齐的。适合做BI类似的东西。

固定长度:两个窗口之间无交集数据。一个数据不会同时属于2个window..可以有时间的也可可以有count的。

移动窗口,适合求比如最近5分钟的。也可以做一些监控这些事情。

不支持countWindow,只支持timewindow。

<sesion gap的就可以聚合在一起,认为是一个seeeion,适合线上行为分析。在这个session时间内做了哪些事情。

sesion gap设置太大就不合理,因为都聚合在一起了。

3种时间,

eventtime:事件产生的时间,这个一般用的比较多。

ingestion:进入flink的时间(进入souce的时间),

processingtime:某个算子开始处理的时间(window)

window和eventtime结合起来做事情。

水印:数据处理到那个位置了。水印到了说明之前的数据已经到齐了。

数据没有到齐,都存起来先。一些中间状态。

不要做持久化,只要做配置就会被Flink托管。机器挂了,进程结束都可以根据这些状态恢复。

operatorstate:算子的状态

keyedstate:存hash的key

checkpoint:把状态做一些容错。以前的流式计算为了计算一个state,所有的算子都要停止,获取一个快照,记录下状态。相当于全局同步。Flink是全局异步,只有某个标志到了,会把这个状态做一个快照。

exavtly-once:假如需要依赖外部的东西需要三方都保证。不光是flink保证,还要souce好sink都要保证。

原理是数据源加一个标志barriers,以这个算子为例所有的barriers都到齐了就会做一个快照。数据源会定时发送barriers进来,就是一个要做快照的标志。

checkpoint主要做内部失败,从最近的一个成功的checkpoint恢复。

生成t1就会删除t0,会fork一个版本出来。从t3时刻做了一次恢复从这个点进行一次回溯的计算。

主要是作为外部恢复,原来需要的资源不够,需要把资源改大一点,需要重启。

目前官方的需要通过命令去做还没有一套好的API让用户直接调用java代码或者scala代码,目前的savepoint还不是很好用。

运行时架构分为三个角色:client,jobmanager,taskmanager.

先生成一个图,通过AKKA把“”图“”发给jobmanager(看成一个master,做协调和分发的概念)

jobmanager两个比较重要的功能:一个是调度,这个节点分配到那个taskmanager.

二是checkpoint的协调器,checkpoint官方也说了是定时注入到source数据源。

taskmanager:真正干事情的,它有task槽的概念。

task槽实际上就是对taskmanager资源的分割。task是跑在task槽上真正在执行任务。

taskmanager也会汇报心跳做一些统计。

taskmanager可以看做一个进程。把内存和CPU分割为3部分。虚线表示一个task,可以看成一个线程。

做一个chain:source和map 这2个算子泡在一个subtask上,这2个是可以串一起。这种是可以做一些优化。

具体组成operatorChain有7个条件。

operator:一些算子

task:真正运行的,就是几个operator组成一个chain运行在一个task上。

ETL:数据清洗。

数据埋点agent。怎么清洗任务下发给flinkETL。

大应用好管理,也有风险大的topic,某一台机器一挂影响所有ETL。

小应用每个ETL是隔离不影响,管理成本又增大了,要做监控,只会影响某一个ETL。

实际经验还是用小应用。

计算规则中心下发给Flink,Flink做一个聚合到es或者druid。druid做一个OLAP引擎,做一些预聚合。再落到dashboard做一个实时的BI和告警。ES:日志检索的。

这里有个问题就是数据是先在flink聚合再到druid还是只是flink做个ETL,聚合在druid里做,因为他有预聚合。

实际生产下要做个权衡,如果flink不够强大的话,那么只做个ETL。因为window聚合有些状态管理比较消耗资源。

或者可以在flink做1分钟的基本单元的聚合然后再到druid做10分钟的很大的聚合进行累加也是比较常见的,相当于只做一个基本单元的聚合。因为流式处理window比较大是不可以的,会有内存过大导致各自问题。

CEP只能静态不能动态加载CEP实时生效。可以做一些匹配告警这种。

实时机器学习做一些推荐,相对CEP还不是很成熟。

source扩大并行度能不能起到作用,有些扩大了没用。

遇到很多自己写一些状态,不符合flink托管的状态,实际开发中要考虑状态问题。

异常一捕获就会丢失数据。不捕获又不好。需要权衡。

在一定延迟范围业务方可以接受多少延迟,用多少并行度去处理。

追数据能力:机器宕机,从上一个checkpoint去恢复数据。官方说追数据能力3-5倍(正常数据量的3-5倍)以上。数据完整性和数据延迟。否则如果数据很大需要去掉checkpoint,直接从kafka消费数据开始计算。所以追数据能力不行要做一个权衡。

从运维角度。

如果用户说丢数据,需要有可以反驳用户。也可能是发送方延迟,构筑一个简单的数据质量体系告诉用户。

flinkUI上的度量比较简单,需要自己构建收集flink的度量。

flink的日志在大规模生产有问题,日志比较多会把flinkUI 搞挂,需要构建flink日志的滚动。还有用户会去看。

要做一些flink平台服务化,应用监控的质量体系。

稳定性保证:纯流式的,还有很多问题,很多都是某一个组件抖动,为了保证一致性会有一些问题。

构建SQL平台:SQL给用户直接写SQL。

学习流式计算作为一个函数式编程语言需要scala,面试必须。

Flink核心的通讯是AKKA也就是scala写的。

paper:论文。

源码上的接口上有注释,官方文档毕竟不完善。

相关文章:

数据库模型设计——主键的设计

在数据库设计时&#xff0c;主要就是对实体和关系的设计&#xff0c;实体表现出来就是表&#xff0c;关系表现出来就是外键。而对于一个表&#xff0c;由两部分组成&#xff1a;主键和属性。主键的简单定义就是表中为每一行数据的唯一标识。其实更准确的说法&#xff0c;每一行…

jsp ajax动态添加数据,jquery Ajax实现Select动态添加数据

jquery Ajax实现Select动态添加数据&#xff0c;具体内容如下1.背景最近在工作中&#xff0c;遇到了一个关于select的问题。一般情况下&#xff0c;select下拉框中的数据都是固定的或者直接在jsp中读取列表值显示。但是&#xff0c;这次要实现select与别的选项框联动&#xff0…

Spring Boot(十一)Redis集成从Docker安装到分布式Session共享

2019独角兽企业重金招聘Python工程师标准>>> 一、简介 Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库&#xff0c;并提供多种语言的API&#xff0c;Redis也是技术领域使用最为广泛的存储中间件&#xff0c;它是「…

Java线上问题排障:Linux内核bug引发JVM死锁导致线程假死

Java本质上还是离不开操作系统&#xff0c;一来Java源码是用C/C实现的&#xff0c;二来java进程还是需要依附于操作系统和硬件资源&#xff0c;有时候一些问题是操作系统级别导致的&#xff0c;下面的整个事件是源自一则真实的线上案例。 过程&#xff1a; JVM死锁导致线程不可…

从AdventureWorks学习数据库建模——保留历史数据

在业务需求中&#xff0c;经常需要我们在系统中能够记录历史信息&#xff0c;能够查看到历史变动情况&#xff0c;这时我们可以通过增加开始结束时间字段来记录数据的历史版本。对数据的历史记录主要分为&#xff1a;关系、属性历史&#xff0c;实体历史和变更历史。 关系、属性…

因特网的域名服务器系统的好处,dns域名服务器的作用是什么

大家好&#xff0c;我是智能客服时间君&#xff0c;上述问题将由我为大家进行解答。dns是域名系统 (Domain Name System) 的缩写&#xff0c;该系统用于命名组织到域层次结构中的计算机和网络服务。DNS 命名用于Internet等TCP/IP网络中&#xff0c;通过用户友好的名称查找计算机…

Openssl私建CA

构建私有CA: 在确定配置为CA的服务上生成一个自签证书&#xff0c;并为CA提供所需要的目录及文件即可&#xff1b;步骤&#xff1a; (1) 生成私钥&#xff1b;[rootcentos7 ~]# (umask 077; openssl genrsa -out /etc/pki/CA/private/cakey.pem 4096)Generating RSA priva…

不同版本浏览器前端标准兼容性对照表以及CORS解决跨域和CSRF安全问题解决方案

CORS也已经成为主流的跨域解决方案&#xff0c;不过CORF也会引发CSRF&#xff0c;本文先分享第三方的一个前端工具箱全面展示那些浏览器版本支持CORS&#xff0c;由于各家浏览器厂商因为各自原因在不同的版本里支持的标准不同&#xff0c;这个工具小而美&#xff0c;可以清晰的…

arm服务器获取文件路径中文,ssh 访问远程服务器文件路径

ssh 访问远程服务器文件路径 内容精选换一换在IntelliJ上选择“项目”&#xff0c;找到“.idea”文件夹&#xff0c;单击右键选择“新建>文件”&#xff0c; 输入文件名“settings.json”生成settings.json文件。如图1所示。复制以下代码至新创建的settings.json文件中&…

[Win7]如何还原[.bat]文件关联

2019独角兽企业重金招聘Python工程师标准>>> 此文已迁移到微信公众号&#xff1a;灰灰的Rom笔记&#xff0c;公众号ID&#xff1a;SXF-Rom。 灰灰的Rom笔记 转载于:https://my.oschina.net/shawnxia/blog/672371

Android Monkey使用

Monkey 是什么&#xff1f; Android SDK自带的压力测试工具&#xff0c;也是一个命令行工具。它向系统发送伪随机的用户事件流&#xff08;如按键输入&#xff0c;触摸屏输入&#xff0c;手势输入等&#xff09;&#xff0c;实现对正在开发的应用程序进行压力测试。 &#xff0…

Flink在美团的应用与实践听课笔记

本文系《Flink在美团的应用与实践》的听课笔记 原始视频视频资源已经在优酷公开&#xff1a;2018.8.11 Flink China Meetup北京站-Flink在美团的应用与实践 作者&#xff1a;刘迪珊美团 1.现状和背景 实时平台架构 最底层是数据缓存层&#xff0c;可以看到美团测的所有日志类…

[LeetCode]题解(python):150-Evaluate Reverse Polish Notation

题目来源&#xff1a; https://leetcode.com/problems/evaluate-reverse-polish-notation/ 题意分析&#xff1a; 给定一个数组&#xff0c;用这个数组来表示加减乘除&#xff0c;例如 ["2", "1", "", "3", "*"] -> ((2 …

微软苹果服务器宕机,苹果服务器宕机,iPhone用户别做这两项操作,微软特斯拉也中招...

原标题&#xff1a;苹果服务器宕机&#xff0c;iPhone用户别做这两项操作&#xff0c;微软特斯拉也中招虽然苹果一直都以安全来标榜自己&#xff0c;而事实上也确实如此。IOS封闭的环境&#xff0c;相对与安卓这个开放的环境确实要更加安全一些。苹果可以很好的抵御外来的风险&…

索尼发布无人机相机专利,支持眼部对焦

无人机将采用可折叠式设计&#xff0c;无需使用手机就能操控。 目前消费级无人机的行业霸主自然是大疆无疑&#xff0c;前段时间推出的Mavic 2再次让我们领略了大疆无人机的实力。不过近日&#xff0c;索尼在日本公布了其首个无人机相机专利技术&#xff0c;似乎在向大疆发起挑…

你需要知道的高性能并发框架Disruptor原理

Disruptor的小史 现在要是不知道Disruptor真的已经很outer了&#xff0c;Disruptor是英国外汇交易公司LMAX开发的一款开源的高性能队列&#xff0c;LMAX Disruptor是一个高性能的线程间消息传递库&#xff0c;它源于LMAX对并发性&#xff0c;性能和非阻塞算法的研究&#xff0…

c++11 多线程 1c++ concurrency in action

一、并行、多线程 1、计算机中的并行有两种方式&#xff1a;任务切换、利用多处理器多核。 纯粹的任务切换&#xff1a; 纯粹的多处理器多核&#xff1a; 任务切换与多处理器多核结合&#xff1a; 实际应用中是“任务切换与多处理器多核结合”方式&#xff0c;首先现在硬件偏移…

芯片刀片服务器,使用“刀片服务器”其实不难

刀片服务器已经轰轰烈烈地吵了将近两年的时间&#xff0c;市场上的刀片服务器产品也越来越多&#xff0c;所使用的芯片种类也逐渐发展为intel、amd、power等几种&#xff0c;支持的平台也包括了unix和ia架构。2005年底&#xff0c;hp还推出了基于安腾2平台的bl60p产品&#xff…

Prometheus 对比 Zabbix

公司要上监控&#xff0c;Prometheus 是最热门的监控解决方案&#xff0c;作为喜新厌旧的程序员&#xff0c;我当然是选择跟风了&#xff0c;但上级更倾向于 Zabbix&#xff0c;那没办法&#xff0c;只能好好对比一番&#xff0c;给出几个靠谱的理由了。 但稍稍深入一点&#x…

好理解的Java内存虚假共享(False Sharing)性能损耗以及解决方案

虚假共享(False Sharing)也有人翻译为伪共享 参考 https://en.wikipedia.org/wiki/False_sharing 在计算机科学中&#xff0c;虚假共享是一种性能降低的使用模式&#xff0c;它可能出现在具有由高速缓存机制管理的最小资源块大小的分布式一致高速缓存的系统中。当系统参与者将…

delphi xe 文件服务器,DelphiXE7中创建WebService(服务端+客户端)

相关资料&#xff1a;http://www.2ccc.com/news/Html/?1507.htmlhttp://www.dfwlt.com/forum.php?modviewthread&tid922DelphiXE7新建WebService具体操作&#xff1a;1.打开“DelphiXE7”->“File”->“New”->“Other”2.“New Items”&#xff0d;>“Delph…

Android app 别用中文名

/************************************************************************** Android app 别用中文名* 说明&#xff1a;* 本来想分析一下这份源代码&#xff0c;结果发现因为项目名中有中文不能自动生成R* 文件&#xff0c;于是不想分析了。** …

一线互联网常见的14个Java面试题,你颤抖了吗程序员

跳槽不算频繁&#xff0c;但参加过不少面试&#xff08;电话面试、face to face面试&#xff09;&#xff0c;面过大/小公司、互联网/传统软件公司&#xff0c;面糊过&#xff08;眼高手低&#xff0c;缺乏实战经验&#xff0c;挂掉&#xff09;&#xff0c;也面过人&#xff0…

复化梯形公式,Newton-Cotes公式,变量代换后的复化梯形公式,Gauss-Legendre公式,Gauss-Jacobi公式插值积分的精确度比较

1.问题 分别计算积分 Ic∫01cos⁡xxdx1.809048475800...I_c\int_0^1\frac{\cos{x}}{\sqrt{x}}dx1.809048475800... Ic​∫01​x​cosx​dx1.809048475800... Is∫01sin⁡xxdx0.620536603446I_s\int_0^1\frac{\sin{x}}{\sqrt{x}}dx0.620536603446 Is​∫01​x​sinx​dx0.62053…

Elasticsearch 知识点目录

2019独角兽企业重金招聘Python工程师标准>>> 经过一段时间的编写&#xff0c;完成了第一个版本的Elasticsearch书籍的编写&#xff0c;目录结构如下&#xff1a; 1 Elasticsearch入门 7 1.1 Elasticsearch是什么 7 1.1.1 Elasticsearch是什么 7 1.1.2 Elasticsearch…

不要千言万语,一组漫画让你秒懂最终一致性

直接上图 如果你以前看过最终一致性的定义那么你一定会为这幅精彩漫画拍手叫好。 你要是不知道什么是最终一致性你可以看看下面的权威定义&#xff0c;当然了网上关于什么是最终一致性的帖子铺天盖地&#xff0c;也许你已经很明白了&#xff0c;即使这样你是不是依然为此图欢呼…

Feign实现服务调用

上一篇博客我们使用ribbonrestTemplate实现负载均衡调用服务&#xff0c;接下来我们使用feign实现服务的调用&#xff0c;首先feign和ribbon的区别是什么呢&#xff1f; ribbon根据特定算法,从服务列表中选取一个要访问的服务; RoundRobinRule:轮询RandomRule:随机Availability…

度量,跟踪和日志记录

今天&#xff0c;我有幸参加了2017年的分布式追踪峰会&#xff0c;其中有很多来自AWS / X-Ray&#xff0c;OpenZipkin&#xff0c;OpenTracing&#xff0c;Instana&#xff0c;Datadog&#xff0c;Librato等公司的人员&#xff0c;我很遗憾我忘记了这一点。有一次讨论转向了项目…

python 第六章 函数 pta(1)

1.Multiple-Choice 1.print(type(lambda:3))的输出结果是____。 A.<class ‘function’> B.<class ‘int’> C.<class ‘NoneType’> D.<class ‘float’> 答案&#xff1a;A 2.在Python中&#xff0c;对于函数定义代码的理解&#xff0c;正确的理解…

生成.a文件步骤

1.新建一个Project 选择 iOS->Framework & Library ->Cocoa Touch Static Library点击Next-> 输入Product Name 2.删除自动生成的文件 替换成我们需要的文件 如&#xff1a;原本自定生成的文件为继承自NSObject的&#xff0c;而你需要的为继承自UIView的&#xff…