1.2 大数据相关技术
1.2.1 大数据平台与架构
大数据平台与架构是大数据分析的基础,大数据平台管理并处理着海量数据,给上层的大数据分析工作提供了稳定的环境,而商业决策中所需要的重要信息均来自于大数据精准的分析结果。
本节主要简单概述大数据平台组件及基本的架构,后面会有章节重点讲解当前主流的大数据框架结构。图1-2所示为Datafloq在2014年9月提供的涉及大数据的一些重要开源工具或组件。
·图1-2 大数据基本组件
1.大数据平台基本组件概述
经过了十多年的发展,大数据技术逐渐具备了以开源为主导、多种技术和架构并存的特点。从数据在信息系统中的生命周期看,大数据技术生态主要有五个发展方向,包括数据采集与传输、数据存储、资源调度、计算处理以及数据查询与分析。
在数据采集与传输领域,包含离线数据和实时数据的采集和传输,渐渐出现了Sqoop、NIFI、Flume和Kafka等一系列开源技术。在数据存储领域,HDFS已经成为大数据磁盘存储的事实标准,形成了key-value(K-V)、列式、文档、图类等数据库体系,出现了Redis、DynamoDB、HBase、Cassandra、MongoDB、Neo4j等数据库。资源调度方面,Yarn、Mesos和Borg是目前资源管理和调度系统的先导者。计算处理方面,其引擎覆盖了离线批量计算、实时计算、流计算等场景,诞生了MapReduce、Spark、Flink、Storm等计算框架。在数据查询与分析领域,形成了丰富的On-Line Analytical Processing(OLAP,联机分析处理)解决方案,主流的开源OLAP引擎有Hive、Sparksql、Presto、Kylin、Impala、Druid和Clickhouse等。
2.大数据平台架构概述
目前,大数据的技术栈已趋于稳定,但由于云计算、人工智能等技术的发展,还有芯片、内存端的变化,大数据技术也在发生相应的变化。例如流式架构的更替。最初大数据生态没有办法统一批处理和流计算,只能采用Lambda架构,如图1-3所示,批任务用批计算引擎,流式任务采用流计算引擎,如批处理采用MapReduce,流计算采用Storm。后来Spark试图从批的角度统一流处理和批处理,Spark Streaming采用micro-batch的思路来处理流数据。而近年来纯流架构的Flink异军突起,其架构设计合理,生态健康,发展特别快。2019年11月28日,Flink Forward Asia 2019在北京国家会议中心召开,阿里在会上发布Flink 1.10版本功能前瞻,同时宣布基于Flink的机器学习算法平台Alink正式开源,这也是全球首个批流一体的算法平台,旨在降低算法开发门槛,帮助开发者掌握机器学习的生命全周期。
·图1-3 大数据Lambda架构
1.2.2 大数据分析常用工具
如今,人工智能、机器学习和深度学习几乎成了家喻户晓的名词,这三者之间究竟有什么联系和区别呢?
人工智能是模仿、延伸、扩展人的智能的方法,已逐渐成为新一轮产业变革的核心驱动力,被广泛应用于实时语音翻译、目标识别、自动驾驶、人脸识别、信息安全等众多领域。如图1-4所示,机器学习是人工智能的核心,具有归纳和综合能力,而深度学习是一种实现机器学习的更具深度的神经网络技术。
·图1-4 人工智能、机器学习、深度学习
通常认为,机器学习是实现人工智能的主要方式,人类基于机器学习及海量的数据逐步实现人工智能,而深度学习是机器学习的一个分支。
对于大数据分析来说,首先需要了解现有的工具箱,也就是用什么算法解决什么问题,如图1-5所示。
·图1-5 机器学习常见算法
机器学习算法根据学习与训练的方式和目标可以分为监督学习、无监督学习以及一些特殊算法。其中,监督学习和无监督学习的区别在于训练数据是否有标签,例如,以图片作为训练数据,并人工给予相应的标签(猫、狗、马、羊等),选择适当的分类器进行训练,然后对没有标签的数据进行预测,该类任务就属于监督学习的范畴。以不同水果的形状、色泽及口味等作为训练数据,然后对上述数据进行聚类分析,把具有相似属性的水果聚成一类,即物以类聚,该类任务就属于无监督学习的范畴。无监督学习无法直接对具体的类别进行定性,如输出这个类别是属于苹果还是梨,这需要通过后续的进一步分析来得出。特殊算法一般是前置处理,它的处理不是一个目的而是一个过程,如数据降维操作、奇异值分解等。
以上内容简单介绍了大数据分析所用到的工具箱,后面的章节会重点讲解当前常见的机器学习算法及使用场景。