大数据整体流程涉及很多模块,每一个模块都比较复杂,例如数据采集、数据传输、实时计算、离线计算、大数据储存等相关模块。 目前基本上所有的大数据架构都是基于lambda和kappa架构,不同公司在这两个架构模式上设计出符合该公司的数据体系架构。
lambda 架构使开发人员能够构建大规模分布式数据处理系统。 它具有很好的灵活性和可扩展性,也对硬件故障和人为失误有很好的容错性。 而kappa架构解决了lambda架构存在的两套数据加工体系,从而带来的各种成本问题,这也是目前流批一体化研究方向,很多企业已经开始使用这种更为先进的架构。
。
可以说做Hive开发、HBase开发。大数据工程师做的最多的就是Hive开发。
--1,”神“规划、构建符合项目需求大数据平台技术框架调研/技术选型
--2,HiveQL/SparkSQL数据清洗数据统计分析机器学习:数据准备(Hive、SparkCore、MapReduce、)
--3,HBase表:数据入库数据查询数据分析--
4,流式实时计算实时统计如何实时接收数据,数据不丢失配合前端数据展示RedisES/Solr。