信息化孤岛如何解决,信息孤岛产生原因

信息化孤岛探讨及解决思路(五)数据孤岛问题的解决 问题讨论观点

问题

对于已有的和将会有的很多应用来说,数据融合怎么样实现是比较好的实践方式?既兼顾现在,又考虑未来的发展?这种情况下 应用需不需要改造?会不会有多种情况不同的选择?

讨论

针对这些问题,小伙伴们循例进行了如下,有些发散但有益的讨论:

建立一个数据融合平台,将各个应用的数据通过统一的规则治理后存放在这个大数据融合平台,大数据融合平台通过API接口提供数据服务。这对以已有的或将来的应用都是可行的。对于新开发的应用,数据格式的设计可以遵循大数据平台的要求,那么数据治理的工作量就会小很多。

对于解决数据孤岛,那么肯定是建设一个数据融合平台了,也就是所谓数据池,兼顾到以后未来的应用,那么还需要考虑到现有的应用可能还会存在传统数据库,既然这么做的话,那就还得考虑把传统数据库的数据慢慢的,逐渐的向迁移大数据平台,类型通常就是半结构化非结构化的数据类型。可是传统数据库改造成大数据的那些方式其实可能会有一些问题,有两个问题吧。第一应用本身他有自己的运转,他是有自己的方式的,可能需要的还是传统型数据库,像那种事务型的比如银行的转账业务,他是有关联动作的,而大数据类型的目前支持不了的,所以还是需要传统型的数据库。第二呢,在藕合上,低耦合设计,应用本身是要能够自成一体的,所以呢,不能够直接改造。
比较好的方式应该还是区分各种数据,按各种数据对时间要求的需要,尽量减少实时准实时的数据的需要,缩小那个处理的范围,对那些数据,需要实时、准实时的就提供接口给这些数据的应用,对应用进行一部分的改造,让他们以接口的方式快速,实时的把数据送过来。然后其他的再用其他的方式,这样达到一个比较平衡的模式。通过这些方式,结合起来就是既可以减少或者尽可能的减少应用的改造,然后又能够保证数据融合的结果。像海关那边呢这种实时准实时数据是比较少的。这种真的有需要,可以通过那个接口的方式来做,而大部分情况下,还是从文件这种非结构化数据里面过来,以及从数据库抽取过来。这些有各种各样的方式共同把数据都汇聚到数据平台里面去。其实我们可以把这些所属所有的各种各样的方式,包括接口、数据库、文件抽取,还有其他的方式都统称为融合服务,这样相对于大数据本身的分析,etl是不太一样的层面,我们可以把它当成一个单独的服务来说,我们所说的数据融合平台包含数据融合(汇聚)服务,还有大数据平台,汇聚这部分可以作为相对独立的一部分来看待。

实时的、准实时的、非实时的数据输入要求是不同的,作为数据的源头的应用,需要什么样的配合才能达到目的?
对于这个问题,首先需要尽量保证数据的合规性、准确性、完整性,这样当数据分析平台要用这些数据的时候才能拿来用,才有价值。
非实时数据的输入这块对业务基本上是不用改造的,一般都是从业务已存储的数据里面进行数据同步或抽取,而实时的、准实时的则有可能需要借助相应的采集工具例如Flume\kafka等,可能需要进行相应的数据接口改造配合。例如我现在在做的烟草设备信息实时数据分析,数据采集接口这块也是需要对接的。

对原有的数据进行简单整理,定大致规范,以后的数据也依循这个大规范,只不过规范越来越详细,然后之前的数据再根据详细规范进行调整,这样慢慢的数据就能整体统一。上述方式只能发生在数据平台本身,对于不同的数据输入要求,应用进入平台(汇聚)的过程比较难,因为每个应用都有自己的局部目标,只能分类处理。

针对不同应用来做不同处理,如果客户的应用体量大,那又是一个大工程了

对于现存的各应用,可建立一个数据平台,将各业务系统中的数据整合汇总到这个平台,形成一个数据仓库,后对数据进行深度的整合、清洗、分析利用,解决各应用数据孤岛问题;
对后续新应用,数据也汇总到统一的数据平台,并对应用数据格式规范,需符合数据平台数据格式要求,减少数据清洗等工作。
但对于数据分析来说,可能有不同的时间要求,比如实时的、准实时的、允许一定时间的比如一个小时或者半天、一天的、一周的、一个月的,在这些情况下对数据源的输入要求是不同的,这些情况下,作为数据的源头的应用,需要什么样的配合才能达到目的?有什么样类型的数据?对应的需要怎么处理?按我的理解,借助一些工具转换数据、存储数据,如ETL工具,应该不需要改造应用。可是如果不改造应用,就需要直接从数据库或者文件中获取数据,这种情况下就没办法做到实时、准实时的。

从长期来讲,一般都是先对已有业务的数据融合,让新增的应用直接接入数据融合平台,然后再逐步淘汰或者升级原有系统吧。

观点

需要建设大数据平台和数据融合(汇聚)服务,汇聚服务提供三类的处理方式,包括

1、实时、准实时的数据类型,提供标准接口(包括开发包SDK)给应用,对应的应用需要进行接口适配(改动不大,而且只针对需要实时处理的数据),让这类数据可以通过汇聚服务进如大数据平台。

2、提供数据库抽取的方式,通过各种数据库工具、脚本,自动化的对相关应用的数据进行抽取,汇聚到大数据平台中。
3、文件、图片等非结构化数据,转存到大数据平台中,汇聚服务可能会包括类似摆渡的工具,保证数据能汇入大数据平台中。

大数据平台分类存储以上各类数据,可以通过OCR等工具、标签服务等,将原始数据初步处理后再保存,不一定会全部保存所有原始数据,可能只保存初步处理后的数据。
大数据有了这些数据后,并且有机制保证数据的新鲜,就可以不断的进行融合分析,逐步深入直到智慧业务的产生了。
有几点策略或者规则的:
首先需要尽量保证数据的合规性、准确性、完整性,这样当数据分析平台要用这些数据的时候才能拿来用,才有价值。——数据的初步处理应该包含这部分的内容。
针对不同应用来做不同处理,如果客户的应用体量大,会是一个大工程——所以尽量减少改造是关键,当然部分的改造是避免不了的,通过分析明确需要改造的范围,就算一个应用,也可能只有一小部分数据是需要实时、准实时处理的,只需要针对这部分进行接口适配即可,另外尽量提供标准的、兼容性好的接口也是需要的。

后续章节我们将继续进行深入探讨。

上一章

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注