2.2.3 系统流程图_剑指大数据：企业级数据仓库项目实战（电商版）-QQ阅读中文科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

本数据仓库系统主要流程如图2-2所示。

前端埋点（指数据采集的技术方式，下同）用户行为数据被日志服务器落盘到本地文件夹，在每台日志服务器中启动一个Flume进程，监控用户行为日志文件夹的变动，并将日志数据进行初步分类，发送给Kafka集群，再配置消费层Flume对Kafka中的数据进行消费，落盘到Hadoop的分布式文件系统HDFS中。

业务数据则需要根据表格的性质制订出适合的数据同步方案，选用适当的数据同步工具，将数据采集至Hadoop的分布式文件系统HDFS中。

数据到达分布式文件系统HDFS中之后，开发人员需要对其进行多种转换操作，最重要的是需要进行初步清洗、统一格式、提取必要信息、脱敏等操作。为了使数据计算更加高效、数据复用性更高，我们还需要对数据进行分层。最终将得到的结果数据导出到MySQL中，方便进行可视化，同时需要为用户提供方便的即席查询通道。

图2-2　本数据仓库系统主要流程