![剑指大数据:企业级数据仓库项目实战(电商版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/785/48376785/b_48376785.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.2.3 系统流程图
本数据仓库系统主要流程如图2-2所示。
前端埋点(指数据采集的技术方式,下同)用户行为数据被日志服务器落盘到本地文件夹,在每台日志服务器中启动一个Flume进程,监控用户行为日志文件夹的变动,并将日志数据进行初步分类,发送给Kafka集群,再配置消费层Flume对Kafka中的数据进行消费,落盘到Hadoop的分布式文件系统HDFS中。
业务数据则需要根据表格的性质制订出适合的数据同步方案,选用适当的数据同步工具,将数据采集至Hadoop的分布式文件系统HDFS中。
数据到达分布式文件系统HDFS中之后,开发人员需要对其进行多种转换操作,最重要的是需要进行初步清洗、统一格式、提取必要信息、脱敏等操作。为了使数据计算更加高效、数据复用性更高,我们还需要对数据进行分层。最终将得到的结果数据导出到MySQL中,方便进行可视化,同时需要为用户提供方便的即席查询通道。
![](https://epubservercos.yuewen.com/273850/27950247907337306/epubprivate/OEBPS/Images/txt002_2.jpg?sign=1739157271-Sis0oZ2EWlGJHk1OpcxUSax6UemnLh7C-0-b23e74ff7f7191977d5d20e1cf4bfdd7)
图2-2 本数据仓库系统主要流程