据说做好ETL,BI项目就成功了一半
做好一个BI项目的关键是什么?有人会说,那肯定是报表,报表是数据分析最直接的成果展示,好的报表能够帮助企业从各种纷杂的信息中及时地发现关键有效的信息,从而为决策提供支持。诚然,报表很重要,这是毋庸置疑的,但是从另一个层面也反映出大部分人走入了一个误区,拿BI当报表系统来用,这有点大才小用的感觉,报表只是BI项目中的一个环节,在我看来,做好ETL,做好数据处理,那么剩下的报表分析工作,就会事半功倍。
BI中的ETL到底是什么?
那么是什么ETL?ETL 的英文全称叫做 Extraction 抽取,Transformation 转换,Loading 加载。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。
抽取就是指将数据从一个数据源、或者多个数据源抽取过来的动作,数据源有可能是关系型数据库,也可能是文本文件,或者一个程序的API接口。ETL的数据抽取具有丰富的数据连接能力,支持目前主流的关系数据库,如Oracle、Mysql、DB2、MSSQL、Presto+hive、星环、PG、Gauss100、Greenplum等等,通过创建数据源快速连接企业的业务数据库。
转换就是指数据的清洗、合并、拆分、加工、数据逻辑计算处理的过程,通常会按照一定的业务逻辑规则进行计算,最后转换成符合业务模型、分析模型的规范性的数据。简单来说,不管是大数据、小数据,都是将不规范的、不可分析的、转换成规范的、可分析的数据。
加载就是将转换的结果按照分析模型需要的格式将数据写入到目标表,这些目标表就是业务自助分析的数据来源,通过是按照一定建模的方式来组织的,不管是星型分析模型还是雪花型分析模型都是的。
这就是在 BI 中我们通常定义的ETL处理过程,实现BI的过程就需要ETL。ETL是BI项目建设中重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关系到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。
ETL具体如何实现?
ETL通常通过什么方式或者工具来实现呢?ETL的实现有多种方法,常用的有三种:
一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。
前两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少灵活性。SQL的方法优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种是综合了前面二种的优点,会极大地提高ETL的开发速度和效率。
但目前的现状是越来越多的BI企业为了追求所谓的 "敏捷" 基本上已经放弃了传统数据仓库的构建。敏捷快速开发是没有错,但很多人错就错在没有分清楚什么时候应该敏捷,什么时候应该保留传统数据仓库的架构。
这类产品的定位实际上更加适用于个人或者部门级的数据分析场景,并不适合一个真正企业级的 BI 项目构建。对于真正注重企业级 BI 的项目开发,我们不应该削弱数据仓库的作用,反而更应该加强。
亿信ABI的数据处理方案
亿信华辰的ABI产品中的ETL属于上述提到的实现ETL的第三种方式,平台内置了数仓实施工具,其中丰富的处理转换组件,通过拖拽式的流程设计,实现了数据抽取、清洗、转换、装载及调度,用于帮助政府和企业构建数据仓库,完成数据融合,提升数据质量,服务数据分析。具有以下几个亮点:
1. 可视化的拖拽式任务设计,实施更高效
相比起市面上的ETL工具,亿信华辰的ETL程序设计人性化,运用大量可视化技术,让传统的数据整合黑盒子过程变得透明可见。有图形化的开发和监控界面,操作更易用,学习成本低,相应的运维成本低。
一般情况下,ETL过程设计需要用到大量的代码,且重复利用率较低。亿信ABI中的ETL支持批量创建和数据抽样,开发过程支持多人协同定义,共享资料库等等符合实施人员习惯,并此基础上封装大量清洗转换规则,大大降低技术门槛,简单拖拽配置即可快速的建立起ETL工程,让实施更高效。
2.内置丰富的处理转换组件,操作更简单
丰富的数据处理组件也是亿信ETL的一大亮点。亿信ABI中的ETL组件丰富多样,面向数据分析师精心打造,满足各种各样的数据处理场景。之前一个简单的数据处理需求,前期在技术人员这里可能徘徊2-3天的样子,更何况还有后期的修改,有了丰富的可视化ETL组件,复用率高,操作简单,数据处理更高效。
亿信ABI中内置组件包括:输入输出组件、转换组件、流程组件、统计组件、数仓组件、脚本组件、大数据组件、其他组件。以转换组件里面的清洗组件为例,清洗组件支持记录级清洗和字段级清洗,内置50多种规则,支持在一个组件中完成多次清洗转换设置,并支持清洗前后结果预览。
3.灵活的调度任务,满足复杂的场景需求
如果说ETL是BI的基础,那么调度就是ETL的灵魂。我们监控ETL的运行情况,任何程序都不能保证永不出错,需要做确保故障出现后能够弥补。ETL的调度通过ABI调度任务自动执行,系统对ETL调度在状态、启用情况、执行时间上进行监控。ETL工作流定制完成时,系统自动设置计划任务进行ETL调度。用户只需简单操作,即可实现复杂的调度任务。
亿信ABI的ETL调度导向,深度考虑各使用场景,在便捷易用的同时,满足数据处理时不同的用户需求。支持基于时间或事件的调度机制,如:任意事件周期、文件到达、脚本事件等;调度设置支持crontab表达式;调度设置能指定到月份、星期、日期、小时、分钟的粒度;支持设置调度的时间窗口,重调时间间隔等。如果ETL错误了,不仅要形成ETL出错日志,而且要向系统管理员发送警告。发送警告的方式多种,一般常用的就是给系统管理员发送邮件,并附上错误信息,方便管理员排查错误。
4.隔离设计,应用更稳定
另外,为保证运行环境的稳定可靠,亿信ABI还提供了设计区与运行区隔离的机制,所有作业的修订和更改通过在设计区完成调试和试运行后,通过发布机制,发布到稳定的运行环境,保证开发和运行两不耽误。
结语:ETL技术可以大大增强大数据的处理速度,为商业决策赢得更多的宝贵时间,同时也为数据仓库的建立奠定了良好的基础。亿信ABI产品中ETL作为数据处理的核心模块,旨在降低工具操作的复杂度,让业务人员可以快速挖掘数据中蕴藏的价值,最终实现商业价值的快速提升。