福建农信数据仓库项目——高性能、高可用、高扩展
福建农信数据仓库已构建企业级批量数据总线,解决了信息分散、数据质量信息未披露、数据复杂模型等问题,进一步梳理数据服务架构,为管理类应用系统与业务系统之间复杂的数据交互方式解耦,以提升管理类应用系统的分析和模型处理时效。但为了进一步提升数据处理容量,提高批量数据处理效率,增强数据库横向扩展能力,需引入大规模并行处理数据库,以便于为银行大数据转型奠定数据分析基础。
需求分析
目前福建农信数据仓库的裸数据总量已经达到50TB,传统的Oracle共享存储数据库在数据处理、架构扩展性等方面的瓶颈已逐渐显露。为了满足数据仓库业务发展需求,强化数据仓库数据资源整合能力、提升数据处理分析能力、提高数据服务质量及时效性,应对未来深度数据处理分析及大数据分析应用的需求,需要引入新型的MPP数据库软件产品,以提供更全面、更深入、更及时的数据服务。本项目建设旨在实现以下业务目标:
提升数据存储容量:引入MPP数据库后,将可承载最高为1PB的数据容量;
提高数据处理能力:全面提高数据仓库生产环境的数据处理效能,有效缩短仓库跑批时间;
提升数据库扩展性:可根据实际数据量的大小,实现节点的伸缩,处理能力应随着节点的增加呈线性增长。
解决方案
福建农信数据仓库、数据集市全线替换为GBase8a数据库集群,包括:
数据仓库,30节点集群。全部迁移越2000个原Datastage(基于oracle rac计算)作业,加新建约300个存储过程作业,整个跑批3小时左右。原数据库跑批约7小时。
反洗钱,10节点集群 ,500个存储过程,2000万笔业务,40GB数据,2个小时计算,原来oracle rac大约跑批5小时。
监管审计,10节点集群,300个存储过程,50GB数据,1小时计算,原oracle大约跑批4.5小时。
12节点CRM系统,20GB原始数据,350个跑批,1小时,原来oracle rac约跑批4.5小时。报表平台,8节点,基础数据20TB,规划60TB,400-500张结果报表,跑批2.5小时,回传oracle进行前台查询,明细查询连GBase8a,所有的报表均在报表平台出数据。
价值体现
性能优越性:GBase 8a MPP Cluster及其解决方案具有良好的ETL性能,数据加载、数据导出、数据处理等的效率为传统Oracle数据库的5倍以上;
高可用性:GBase 8a MPP Cluster保证7×24小时系统稳定运行,确保无单点故障风险;
线性扩展:GBase 8a MPP Cluster在PB级数据量下,性能可以随着节点数的增加而线性增长。
安全可控:核心数仓、集市等均采用完全自主可控数据库,提升银行存量数据的数据安全和业务安全