正文约4000字,建议读10分钟。
本文从大数据的应用出发,讨论数据可视化在大数据时代面临的一系列挑战,并着重介绍AutoVis针对这些挑战所做的尝试及其体系结构、关键技术和功能特点。
简介: AutoVis是清华大学“大数据系统软件国家工程实验室”自主开发的大数据可视化设计框架。 面向大数据的应用,特别是工业场景,该框架提供了一种由新数据生成图表和招牌的方式,具有表达能力丰富、简单易用、高扩展性、高效率等特点,已成为中四方车辆有限公司、石家庄天远科技集团有限
前言
“看”是人类的基本需要,也是人类探索未知的重要方法。 2019年,许多机构通过捕捉电波、收集大量数据,帮助人类首次“看到”黑洞。 随着数据的可视化,人们通过数据“看不见”,成为人与数据之间的“桥梁”。 作为第四范式“数据密集型科学发现”的组成部分,数据可视化已经广泛应用于不同的科研领域。 随着计算机通用化、信息时代、互联网时代的发展,数据可视化逐渐应用于人们生活的各个领域。 在大数据时代,数据可视化的应用更加广泛,面临着许多新的课题。
挑战
在大数据的时代,数据应用的需求多种多样,数据的特征也发生了本质的变化。 智能硬件的丰富和普及、互联网、物联网、移动化、智能化的浪潮,为数据可视化带来了新的机遇和挑战。 如下图所示,简要梳理了数据可视化系统)在大数据APP中面临的几个重要问题。 例如,数据规模的增加、画面像素空间的限制、数据可视化系统的数据采样能力和绘制效率问题非常突出。 数据多样性的特点是,数据可视化系统不仅需要支持更多的可视化方法,为了适应层出不穷的新数据、新需求,系统的扩展性也必须很好。 数据快速变化的特点是数据可视化系统迅速构建新的图表及时捕捉数据的变化由于使用者所关注的数据特征差异和数据搜索需求,可视化图表的交互性在大数据时代显得更加重要。
大数据时代数据可视化系统)面临的几个课题
为了探索数据可视化是否满足大数据的应用场景,对相关编程工具和系统的研究和应用现状进行了梳理。 如下图所示,数据可视化生成方式分为编程、交互和自动生成三种。 面向各个应用领域,出现了常用的OpenGL、VTK、D3.js等多种可视化编程工具。 编程方式的优点是表现力丰富,缺点是使用者需要编程经验。 交互方式提供了PowerBI、Tableau、Qlik等不需要编程的可视化生成方式,促进了数据可视化工具的普及,缺乏表现力。 近年来,一些学者提出了基于数据自动生成图表的方法,其优点是用户不需要具有数据可视化的背景,缺点是自动生成的图表类型有限,无法表达用户的个性化需求。
数据可视化编程工具与系统
梳理一下大数据可视化面临的挑战和相关进展,会发现其中有许多问题亟待解决,如系统数据的采样能力、表达能力、扩展性、图表的快速构建能力、相互作用能力等。 介绍我们的相关工作。
自动视角
AutoVis是清华大学“大数据系统软件国家工程实验室”针对大数据场景自主开发的数据可视化设计框架。 如下图所示,以大数据带来的挑战为中心,采用可视化设计的技术路线,基于平台化架构思想,我们以成为开放平台为目标,支持数据驱动的交互和设计过程,与人、人
AutoVis的基本思想
针对上述大数据可视化面临的挑战,我们尝试从12个方面寻找应对方法,如下图所示。 针对系统所需的采样能力,提出了一种新的流式时序数据高效采样方法; 实现了支持不同特征提取方法扩展的数据特征提取框架。 关于系统描绘效率,采用数据压缩传输,使数据通信量降低到非压缩通信的三分之一,另一方面,与图表LAZY更新战略相结合,致力于减少图表的不必要的更新。 针对图表表达能力的要求,提出了一种新的图表模板化和交互编辑方法,目前提供了267种图表模板,覆盖了常用的数据可视化方法。 针对系统扩展性的要求,提出了一种平衡易用性和表达能力的图表模板扩展方法; 实现了图表扩展实时反馈技术。 针对图表构建能力的要求,设计了实现图表参数自动填充技术,实现图表秒级的构建和响应,分级构建看板。 对图表相互作用能力的
要求,实现了常用的图表交互方法;提出一种新的多图表联动关系自动发现技术,自动化支持多图表钻取。
AutoVis在应对大数据可视化挑战中的探索动态数据采样与可视化:针对大数据场景中数据更新频繁和数据规模较大的挑战,我们提出了一种动态分桶与层级采样相结合的流式数据采样框架,实现了百万点的毫秒级查询,满足高频数据的可视分析与监控需求。如下图所示,其中数据写入与图表刷新速度均达到了100次/秒。
高频时序数据可视化
多源数据聚合查询技术:针对数据检索与处理耗时长的挑战,我们设计实现了一种数据聚合查询技术,通过将常用数据查询与过滤操作映射成数据的SQL语句,将更多的数据过滤操作在数据库层完成。有助于显著提升数据处理速度,提高数据可视化的效率与交互性。
图表模板编辑与管理技术:针对已有可视化软件中图表模板有限,可扩展性弱,以及通过编码方式定义新的图表模板需要大量的人力资源和时间成本,复用性弱等挑战,我们设计了一种新的可扩展图表模板分类与管理技术以及交互式编辑工具。我们选择使用可视化编程语言Vega和Vega-Lite,并在其示例的基础上进行扩展,目前形成了267种图表模板。另外,提供了选项配置、参数扩展与自由配置三种自由度从低到高的图表目标交互式编辑方式,着力同时满足图表易用性、表达能力与可扩展性的需求。
图表参数自动填充技术:AutoVis提供了一种自动填充图表参数快速生成图表的技术。使用者在打开数据后,拖选图表模板,系统将根据数据信息及模板配置自动填充模板参数,实现可视化图表的一键生成。同时,AutoVis提供了即时响应的图表参数编辑技术,如果自动填充的结果不满足个性化需求,使用者可以很方便地修改图表参数,如下图所示。值得强调的是,AutoVis系统实现了参数推荐与自动补全,努力减少使用者修改参数所需的交互次数。
AutoVis快速生成图表
看板模板描述语言与编辑工具:看板是可视化设计工具生成的主要内容,为了在达到图表模板化、看板配置通用化目标的同时,满足跨平台和跨终端等常用需求,我们设计实现了一种面向可视化看板的描述语言,实现看板的轻量灵活定义。同时,AutoVis提供了一种所见即所得的看板编辑工具,使用者可以采用类Visio画图的交互方式,直观调整看板图表大小与布局。另外,AutoVis还支持面向不同终端的针对性看板设计,方便使用者设置适用于特定终端的可视化看板。
AutoVis设计看板
运行时看板交互技术:大数据时代,使用者对于数据的关注多种多样,不再满足于单向呈现数据的图表,希望通过交互发掘所关注数据特征,满足特定需求,这时需要提供合理的交互方式。AutoVis对于单个图表提供了常用的交互手段,特别地,我们设计实现了一种多图表联动关系自动发现技术,使用者在定义看板时,不需要手工定义图表之间的联动关系,即可实现图表之间的联动与数据钻取。
图数据布局与可视化探索:现实生活中不同的关联关系越来越普遍,例如人与人、人与商品,知识图谱的应用亦越来越普遍。如何有效地与图数据进行交互,AutoVis实现了一种新的图布局算法MGLA以及可视化探索方法。MGLA算法实现了多子图情况下关键节点与边突出的保结构布局,使用者可以通过鼠标标记关注节点,系统亦能够根据不同的搜索条件自动解析所关注节点。
图数据布局与可视化探索
大数据时代数据“无处不在”,这要求我们实现数据“随处可见”。为此,AutoVis支持跨平台与跨终端,如下图所示,兼容常用操作系统、主流浏览器以及不同屏幕分辨率的终端设备。此外,为了满足企业使用者的需求,AutoVis还实现了钉钉企业软件小程序,帮助企业实现数据驱动的共享、会商与决策。
AutoVis的跨平台、跨终端特性
AutoVis移动端看板示例
结束语
大数据时代数据可视化作为人与数据的桥梁,将发挥越来越重要的作用,经过数十年发展的数据可视化如何迎接新的机遇与挑战,值得大家的共同探索。本文简介了我们在这方面的尝试,以希抛砖引玉。如果读者对于AutoVis有兴趣,
欢迎试用:
http://101.6.240.89:18080/;
欢迎通过:
https://github.com/eeyshen/AutoVis-issues反馈问题与需求;
欢迎读者共同研发,联系邮箱autovis@126.com。
编辑:于腾凯
校对:怕孤单的火龙果
译者简介
myddx,国防科技大学计算机科学博士,清华大学博士后,主持研发“清华数为”大数据可视化平台,长期从事数据可视化、可视分析和人机交互等方面的研究。曾经主持或参与多项863、973、科技重大专项、国家重点研发计划等项目,其中作为骨干完成的“极大规模并行可视计算系统”获得全军科技进步奖。在TVCG、VC等期刊和会议上发表论文10余篇,申请专利10余项。曾获得中国虚拟现实大会最佳论文,全国高性能计算学术年会最佳论文提名等。
—完—
关注清华-青岛数据科学研究院官方微信公众平台“ THU数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。
极速赛车位置相加减公式图使用者在打开数据后,拖选图表模板,系统将根据数据信息及模板配置自动填充模板参数,实现可视化图表的一键生成。同时,AutoVis提供了即时响应的图表参数编辑技术,如果自动填充的结果不满足个性化需求,使用者可以很方便地修改图表参数,如下图所示。值得强调的是,AutoVis系统实现了参数推荐与自动补全,努力减少使用者修改参数所需的交互次数。
AutoVis快速生成图表
看板模板描述语言与编辑工具:看板是可视化设计工具生成的主要内容,为了在达到图表模板化、看板配置通用化目标的同时,满足跨平台和跨终端等常用需求,我们设计实现了一种面向可视化看板的描述语言,实现看板的轻量灵活定义。同时,AutoVis提供了一种所见即所得的看板编辑工具,使用者可以采用类Visio画图的交互方式,直观调整看板图表大小与布局。另外,AutoVis还支持面向不同终端的针对性看板设计,方便使用者设置适用于特定终端的可视化看板。
AutoVis设计看板
运行时看板交互技术:大数据时代,使用者对于数据的关注多种多样,不再满足于单向呈现数据的图表,希望通过交互发掘所关注数据特征,满足特定需求,这时需要提供合理的交互方式。AutoVis对于单个图表提供了常用的交互手段,特别地,我们设计实现了一种多图表联动关系自动发现技术,使用者在定义看板时,不需要手工定义图表之间的联动关系,即可实现图表之间的联动与数据钻取。
图数据布局与可视化探索:现实生活中不同的关联关系越来越普遍,例如人与人、人与商品,知识图谱的应用亦越来越普遍。如何有效地与图数据进行交互,AutoVis实现了一种新的图布局算法MGLA以及可视化探索方法。MGLA算法实现了多子图情况下关键节点与边突出的保结构布局,使用者可以通过鼠标标记关注节点,系统亦能够根据不同的搜索条件自动解析所关注节点。
图数据布局与可视化探索
大数据时代数据“无处不在”,这要求我们实现数据“随处可见”。为此,AutoVis支持跨平台与跨终端,如下图所示,兼容常用操作系统、主流浏览器以及不同屏幕分辨率的终端设备。此外,为了满足企业使用者的需求,AutoVis还实现了钉钉企业软件小程序,帮助企业实现数据驱动的共享、会商与决策。
AutoVis的跨平台、跨终端特性
AutoVis移动端看板示例
结束语
大数据时代数据可视化作为人与数据的桥梁,将发挥越来越重要的作用,经过数十年发展的数据可视化如何迎接新的机遇与挑战,值得大家的共同探索。本文简介了我们在这方面的尝试,以希抛砖引玉。如果读者对于AutoVis有兴趣,
欢迎试用:
http://101.6.240.89:18080/;
欢迎通过:
https://github.com/eeyshen/AutoVis-issues反馈问题与需求;
欢迎读者共同研发,联系邮箱autovis@126.com。
编辑:于腾凯
校对:怕孤单的火龙果
译者简介
myddx,国防科技大学计算机科学博士,清华大学博士后,主持研发“清华数为”大数据可视化平台,长期从事数据可视化、可视分析和人机交互等方面的研究。曾经主持或参与多项863、973、科技重大专项、国家重点研发计划等项目,其中作为骨干完成的“极大规模并行可视计算系统”获得全军科技进步奖。在TVCG、VC等期刊和会议上发表论文10余篇,申请专利10余项。曾获得中国虚拟现实大会最佳论文,全国高性能计算学术年会最佳论文提名等。
—完—
关注清华-青岛数据科学研究院官方微信公众平台“ THU数据派 ”及姊妹号“ 数据派THU ”获取更多讲座福利及优质内容。