029-89353355
乐鱼体育直播下载 contact us
手机:18991830957
座机:029-89353355
Q Q:359316042
邮箱:xr@x-barcode.com
地址:西安市雁塔区雁塔西路158号双鱼大厦A座13层
企业公众号
产品介绍
近年来,以人工智能、区块链、云计算、大数据等为代表的数字技术的创新发展在给证券行业带来冲击的同时,也为行业引入了新的产业元素、服务业态和商业模式,拓宽了证券行业的业务边界。在数字化浪潮方兴未艾的新形势下,推动证券公司数字化转型,致力于提高企业经营管理、风险控制、客户差异化服务等能力,构建企业核心竞争力,已经成为我国证券公司高速高质量发展的必由之路。而数字化转型的核心关键就在于如何将企业内外部数据转化为企业的核心资产,进而利用新技术,进行资产变现。当下,券商进行数据资产转化,存在三大难题:
数据平台架构难。21世纪是数据爆发的时代,根据中国信通院发布《大数据白皮书》白皮书,预计2020年底,全球数据量将达到50.5ZB。面对海量的数据,数字化时代的券商,亟需一站式的解决方案,来应对PB级规模的数据存储、TB级规模的快速计算、多源异构数据的统一访问、大吞吐数据管道等大数据需求带来的平台架构挑战。
数据管理难。数据质量是数据相关应用的基石。如何在数据量呈现指数增长的大背景下,做好企业数据标准的统一、提升数据质量、加强安全合规用数、深挖数据价值,并系统化推进数据资产管理,避免数据沼泽。这是当下券商数字化转型过程中面临的共同问题。
数据服务难。在耗费人力物力积累了海量的数据,形成丰富的数据资产金矿后,有价值的数据和数据的价值之间还存在着最后一公里,而这最后一公里又恰恰是整个企业数字化转型中最重要的一个核心环节。所以如何构建一个安全高效的大数据服务体系,推动数据服务生态的建设,让企业可以切实的从大数据中获益,是企业数字化转型中的关键所在,也是本项目探索的重点。
三大难题是当下券商数字化转型都面临,又都必须解决的问题。希望通过本课题与行业分享数字化转型的相关经验,分享对于这三大难问题的思考和解决方案。
(1)探索、研究、实践一套基于大数据平台的、完善的、数据湖建设技术服务体系,为行业开展数据湖及基于大数据平台开展数据应用提供技术与应用参考。
(2)摸索、分析、构建一套多层次、多样化的数据服务体系,为不同角色、不同岗位的人提供差异化的数据分析工具,通过培养足够多的一线数据分析师,让一线业务同事有足够的素养和能力开展数据分析工作。
(1)基于数据治理研究成果的大数据高效自动化采集与调度工具研究,赋能集团数据湖项目建设,大大提升数据入湖的开发效率与数据质量。
(2)践行数据中台理念,建设高度可配置化DataAPI开发工具,快速将数据服务化,赋能技术/业务中台,让纯数据库人员也具有API开发能力,实现零代码高度可配置化的数据服务开发能力。
(3)实时数仓技术研究与实践,基于FlinkSQL快速构建完全基于SQL的实时数据仓库技术体系。
(4)构建面向业务人员的自助数据服务平台(敏捷BI),消除技术门槛,由固态报表查看转变为开放式自助数据分析。
(5)建设自助SQL社区,在安全可控前提下实现基于海量数据603138)湖数据的自由探索,与敏捷BI形成优势互补,进一步赋能一线)基于上述技术体系,结合工作中的难点、痛点,课题组落地了系列典型数据应用。
在充分论证的基础上,在行业内率先实现了基于 Hadoop 大数据平台的集团数据湖,解决传统数据仓库在数据存储、计算、查询方面的瓶颈问题,同时为大数据挖掘、机器学习和人工智能等业务创新应用奠定了坚实的平台基础。截止20年年底基于 CDH大数据平台已经部署了30个节点,存储达到990TB,内存容量近4TB,计算资源达到1300多个vcore,完成了包括集团全面风险管理、集团非现场审计、集团ECIF和集团CRM等项目数据支持、客户账户分析数据支撑、海量历史查询库、实时相似K线、优理宝实时日志监控等典型数据应用场景支持。此外,课题组目前正基于大数据平台架构开展数据仓库主题模型建设。
(2)开源平台+自主二次开发相结合,打通数据管控平台,打造具有行业特色的数据采集、调度与监控平台
调度任务的执行,支持手动执行、自动执行、断点续跑、批量执行;任务的触发器,时间触发器支持多样化、配置化和多市场(支持沪深市场和港股市场交易日调度)的时间触发,事件触发器(数据库事件和文件事件)支持多种介质的触发监听;
打通了数据管控平台,自动化获取所有的数据源的元数据,界面上一键批量生成多表的采集脚本,提高采集效率,减少人为出错;自动感知源系统数据表结构变化,自动生成采集变更脚本;
多途径、多维度的监控手段,包括细颗粒度的任务调度监控,调度执行器的资源使用监控以及统计信息报表展示。
免去java代码开发,完全实现业务逻辑sql化、配置化,降低开发门槛,提高开发效率,对数据分析人员友好;
拉通离线数据+实时数据,可接口化访问两种类型数据,亦可聚合两类数据,输出聚合结果,成为了打通离线数据和实时数据的重要通道。
可扩展性强,目前已实现配置化http接口通过impala访问hive和kudu表、配置化hbase接口访问hbase数据;通过配置数据源,还可以访问大数据体系周边的传统数据库(mysql、oracle等)及以TiDB为代表的newsql数据库都可以通过配置的方式纳入数据接口服务。
课题组选择了业界成熟的CDC工具(i2Active)、高吞吐量的发布订阅消息系统Kafka和Flink实时计算引擎,搭配Flink stream sql的开发框架来构建实时数据解决方案的工具栈和技术栈。
采购商业CDC工具,支持多种异构数据源的复制,支持Oracle、MySQL、MSSQL等数据库的变化日志捕获,并将捕获的消息实时发布至Kafka;
采用主流的实时流处理引擎Flink,社区活跃,迭代更新快,积极使用新功能特性;采用Flink stream sql开发框架,实现sql配置化开发,降低开发门槛;
数据门户集成实时开发框架模块,实现界面可视化配置数据源、结果表、维表、实时计算指标逻辑,实现自动化开发和测试上线)”三位一体”的大数据权限、安全管控
构建统一的数据采集与调度平台是整个大数据服务体系的基础,统一数据集采调度平台能够实现与数据管控平台的联通协作,集成调度、监控、权限、采集自动化、数据地图统一管理,基于不同的数据源支持多种ETL工具和开发语言实现数据加工处理,并支持采集脚本的批量自动生成,提升开发效率。数据采集调度平台的总体使用界面下图所示。
在元数据对接上,数据管控平台保障元数据的完整性、一致性、准确性的前提下,平台打通数据管控平台,实现标准化的元数据轻松接入;调度平台采用开源Azkaban+二次开发相结合的方式,采用分布式架构,保障高可用性;包含了任务调度、任务流+组管理、调度监控、资源监控、数据质量管理和调度信息统计功能模块。
为降低开发门槛、减轻开发负担,课题组开发了数据服务化平台,集成于数据门户,通过可视化界面操作,配置化生成DataAPI,最终实现各类型数据接口的快速开发、交付。2020年,课题组主要在数据服务化的可配置性和适配的丰富性上发力,丰富了http接口、hbase接口的配置条件,增加了平台的服务能力明细和统计报表展示,适配了TiDB等新兴数据源的接入,平台的可扩展能力进一步增强。
采用业界主流的Flink实时流处理引擎来搭建实时数仓架构,Flink通过kafka接入流数据,再通过rdbms、kudu、hbase、hive引入维表做关联分析,计算结果可写回kafka、kudu、hbase、Tidb等结果数据库。Flink stream sql实时计算框架,在Flink基础上做了封装,用户仅需编写sql,就可以实现复杂逻辑的开发,无需开发java、scale代码,省去了编程调试的麻烦,大大提高了开发效率,特别适合数据分析人员。2020年,课题组进一步扩展实时数仓的结果承载数据库,适配了TiDB、clickhouse、ElasticSearch等主流数据库;完善了数据门户上实时数仓的配置化能力,完善实时指标的在线测试、在线部署等功能;从源头适配、在线开发、在线测试、在线部署多个环节完成全流程的优化升级。
Flink stream sql的开发框架目前已集成在数据门户上,数据开发人员通过界面配置数据源、事实表、维表、结果表以及具体的实时计算指标sql,最终生成Flink程序能够执行的脚本,实现了实时指标的配置化开发,目前通过配置化开发的方式实现了10+条实时指标逻辑的开发。数据门户上实时开发框架大体下图所示。
上一篇:山东省地震局建构筑物灾情获取辅助 下一篇:新联电子获1家机构调研:公司对线