技安电子大数据平台解决方案

项目概述

根据集团信息化规划,遵循“互联网+”的理念,建设集团大数据平台,实现集团数据资源的集中及整合,构建集团统一的数据模型,提高企业数据的处理效率与共享程度。实现对集团企业内部数据和外部数据的分析挖掘,对内对外提供数据服务。为全网提供决策支持、产品创新、交叉营销、服务支撑、风险管控以及流程优化等支撑服务。

集团大数据平台将在Hadoop和云计算等技术的基础上,对金融大数据平台、量收系统、生产系统、CRM系统、电商平台、数据分析综合服务平台的历史数据、数据模型、报表应用等进行移植,全面整合集团业务数据。数据来源涵盖集团所有的生产和管理系统,并可接入同业及相关市场甚至互联网信息,建立从业务层到管理层到决策层的智能分析体系,模拟量化风险和收益,实现对集团各种业务数据进行分类、管理、统计和分析等功能,给各级管理人员提供各类准确的统计分析预测数据,使其能够及时掌握全面的经营状况,为宏观决策提供支持;为基层业务人员提供详尽的数据,供其对各自的工作目标、当前和历史状况进行准确的把握,对业务活动进行有效支撑;满足集团经营管理及决策支持,建设国内一流,世界领先的大数据平台。

系统功能

统一运维监

本方案提供统一的运维监控服务。本方案涉及到的所有软件的部署都通过Docker打包成镜像文件,以便非常快捷的部署实施。内部系统通过镜像数据接口交互层进行交互。通过外部接口层纳入集团运维平台进行统一监控

Hadoop集群自动化部署

一站式大数据平台提供集群自动化部署服务。用户只需要安装管理平台软件,就可以在友好的图形化界面上安装、部署、配置所需要的服务。整个安装过程不需要用户使用任何终端命令或者代码。

平台提供了强大的在线扩容功能,不需要宕机停库,不需要停止业务,就可以添加新的节点,实现扩容。节点添加完成之后可以立即对新添加的节点进行角色的分配,一旦配置成功,则新加的节点就会马上投入运算。扩容之后的数据节点也不需要停机进行数据重分布,系统自动选择空闲的时间进行数据的重新分布。同时,扩容的操作可以方便的在界面进行操作。

Hadoop集群性能监控

平台通过专门的监控服务对集群的状态进行监控,包括服务器CPU、内存、网络和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标超过预设阀值时时提供告警功能。管理员可通过浏览器访问集群的监控和管理界面进行日常的监控和维护,系统提供图标信息展示。管理员可以便捷了解到集群的计算资源是否处于空闲状态、哪些服务器的负载过高,甚至判断集群的组网及机架安排是否合理等。管理员也可通过对各个节点的各个角色的日志信息进行检索,获得更加精确的信息。

Hadoop集群资源管理

平台提供计算任务管理和作业管理,包括作业的上传、配置、启动、停止、删除和状态查看等功能。

在平台中,资源可以从多个方面进行管理。从资源管理模块的层面,用户通过配置不同的Scheduler来定义不一样的资源使用策略,目前支持FIFO Scheduler、Fair Scheduler以及Capacity Scheduler,实现作业动态调整,支持对任务系统资源占用进行实时调配,改变作业调度优先级等操作。

与集团运维监控平台对接

通过集群监控系统向集团运维监控平台发送监控消息,提供对接接口,实现大数据平台与集团运维监控平台的互通,实现统一监控。

平台通过专门的监控服务对集群的状态进行监控,包括服务器CPU、内存、网络和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标超过预设阀值时提供告警功能。管理员可通过浏览器访问集群的监控和管理界面进行日常的监控和维护,系统提供图表信息展示。管理员可以便捷的了解到集群的计算资源是否处于空闲状态、哪些服务器的负载过高,甚至判断集群的组网及机架安排是否合理等。管理员也可通过对各个节点的各个角色的日志信息进行检索,获得更加精确的信息。

作业调度管理

平台提供功能完整,性能优异的ETL框架支持平台建设,针对数据的预处理,中间的转换清洗,包括写入目标时针对异常数据的捕获。整个过程由平台提供的调度平台,元数据管理平台提供支撑,让各部分之间紧密合作,又各司其职。

针对此项目复杂的业务系统和管理,平台提供完善的调度功能,以更好的对各个模块进行良好调度管理。 

调度平台是平台的数据流核心,调度平台让相关的业务系统、处理系统按照一定的业务逻辑,在客户的安排下,像流水线一样,或串行,或并行,按照一定的依赖关系,在每日,每周定时触发,依次执行。平台提供完善的接口和管理模块,让众多的作业管理简易高效。

数据分析与发掘

本方案提供的大数据平台支持多种环境,以便于后续进行多种数据分析与挖掘,并提供多个接口对数据进行导出,以便于客户在体外进行数据分析;也提供数据沙盘给特定的数据分析师进行数据分析,数据沙盘也提供多个数据以及产品接口,以便于进行数据探索。

本方案的平台采用Hadoop平台,它本身是一个并发存储、并发计算的高效平台,选用了 Discover的挖掘模块,它是在对开源的R全面支持的基础上,结合SparkR进行了代码的重大改造。并对常用的R算法进行了并行化改造,这些改造正是基于大数据中关键的体量巨大这个维度进行的优化。之前的数据挖掘由于在单机上进行,而由于数据挖掘需要对数据进行大量的衍生和关联运算,会让待分析的数据集积聚扩大,因而很多数据挖掘针对海量数据只能采用抽样的策略进行模型训练,让挖掘效果受到很大影响。在并发R算法的支撑下,只要节点数足够,原则上可以处理任意体量的数据。

数据展现

平台支持R、ANSI SQL、Python、Java、C/C++等语言,采用B/S架构,提供图形化界面操作支持,操作界面支持简体中文。支持多数据来源输入输出提供表格、图形、地图等可视化元素展示功能,将提供以下相关功能和特性:

标准企业报表,固定报表等。

参数驱动报表,各种基于参数的报表。

周期性报表,例如周报,月报,季报等,系统支持管理员定义周期性运行,亦支持业务用户自定义重复运行方式,用户或管理员可以定义输出格式,包括PDF,Excel,Word,PPT等各种格式;系统同时提供基于事件的触发方式。

支持钻取功能,提供基于事件的脚本控制能力,以满足各种复杂报表需求。

复杂中国式报表,包括中国式表头、复杂布局、特殊功能等各种能力。

提供丰富的图形展现功能,支持包括饼图、条形、线形、仪表盘、趋势图及各种图形;支持Flash图形。

支持报表导出到Excel、Word、PPT、HTML和PDF等格式,导出时可以选择导出整个报表还是部分内容;系统支持导出数据快照,以便日后审计等。

支持将报表导出成原生Excel,报表中的图形(非Flash)能导出为原生Excel图形,能够在导出后的Excel中进一步编辑,支持导出Excel公式,透视表等。

提供数据导出功能,用户能将所查看的报表中数据进行有选择的导出。

提供报表版本管理能力,为不同的执行结果保留不同的版本。

提供基于角色和用户的权限控制,管理员可以为不同的角色和用户设置相应的功能选项及权限。

多语言多时区支持,系统为不用语言环境用户提供多语言支持,用户在登录时可以选择时区及语言,系统将自动切换至相应的UI(仅限UI)。