flink初识及集群搭建和简单验证

批计算和批计算

在软件系统中,尤其是企业级软件,基本离不开数据统计和分析等数据计算。最初,多数常见的统计分析都是基于数据库的数据进行处理,例如某一段时间的活跃用户数统计,这种计算方式称作离线计算,也称作批量计算(个人理解)。

而现实世界中的数据产生方式有很多都是持续不断的,也就是说实际很多场景的数据是就是数据流,这些数据随着时间的流逝,价值会不断的降低,因此就需要尽可能实时的进行处理。

而批计算是一批数据一起处理,尤其是最初数据先入数据库,再拿出来处理,这种方式在数据量日渐爆发的场景下,对于实时分析的业务就会有很多瓶颈,于是渐渐的出现了流计算。

相对于传统的批计算而言,流计算更加的实时,基本是在数据产生并接收到的同时就进行处理,更加符合当前很多要求实时计算的场景。

继续阅读全文 »

hbase-ha模式搭建要点和问题记录

之前搭建了单机的hbase,使用伪分布式的hdfs作为数据存储,具体搭建要点和问题有所记录:
https://blog.csdn.net/tuzongxun/article/details/107915720
后来,伪分布式的hdfs升级为ha模式,hbase自然也是要同步升级成ha的,本以为应该会很顺利,但实际上花的时间还是比预想中的多,因此还是做一个简单的记录,尤其是其中卡住的问题。

继续阅读全文 »

centos7中redis、mongodb、kafka安装记录

一个完整的java后台系统,通常会涉及到非常多的技术,例如数据库、缓存、消息中间件等,除此之外,从部署层面讲,可能还离不开nginx、docker这些,要更加熟练的使用这些技术,加深理解,必不可少的需要有自己的环境。
随着上次centos6.5的系统升级到centos7.8,打算把hadoop、redis、mongodb、kafka等这些软件都迁移到新的虚拟机系统中,docker和hadoop的安装部署最近都有相关记录,这次先补充redis、mongodb和kafka。

继续阅读全文 »