最后一篇文章简要介绍了数据可视化的基础。在设计和可视化数据之后,我们可以有一种全新的方式来理解数据,改变数据的呈现和思维。现在,让我们开始制作一个可视化的数据表格,一步一步地看看我们如何获得数据以及如何可视化地显示它。
上一章提到了关于【数据可视化迭代过程】的步骤,也展示了整个过程涉及的步骤,大致如下:
确定主题数据,获取图表选择(表达式),绘制图表。当然,我们也可以看到可视化是一个迭代的过程,步骤之间需要多次迭代。
00-1010这一定是第一步。做数据可视化的时候,首先要知道自己想做什么,想从数据中得到什么信息。只有当你有了目标,你才能把它做清楚。
那么这次我们就来展示一下关于空气质量PM2.5的数据,了解一下历年来PM2.5的实际情况和发展趋势。
1、确定主题
对于全国空气质量数据,最权威的来源一定是中国国家环境监测中心提供的数据(http://www . cnec.cn/)。但是监控中心提供的API不是很详细,很多第三方也提供类似的API接口,比如PM25.in (http://pm25.in/),API描述非常详细,他们的数据每天都在更新。所以这次,我们选择PM25来获取数据源。
我们可以看到PM25提供了相当多的内容,包括PM2.5、AQI、PM10、CO、NO2、O3等等。我们只需要PM2.5数据,就可以去掉其他不必要的数据,同时将Json数据转换成CSV数据格式。这里的数据转换只是为了方便下一步,我选择了Processing进行数据可视化。如果使用D3.js和Echart来实现,Json可能会更方便。
2、数据获得
对于很多人(非设计师)来说,数据可能很容易获取,但是很难将数据转换成合适的图表来表达。因为相同的数据用不同的图表显示,所以结果完全不同。可能最常用的方法是通过Excel制作图表。在Excel2010版本中,有10大类53个图表,什么数据透视图表,自定义图表等。总之,有很多种。虽然图表有很多种,但只有以下几种基本类型:
图:用于反映随时间变化的趋势;柱形图:用于反映分类项目之间的对比,也可用于反映时间趋势;条形图:用于反映分类项目之间的比较;散点图:用于反映相关性或分布关系;饼图:用于反映成分,即各部分占整体的比例;地图:用于反映地区之间的分类和比较。我明白了,基本图表的类型,怎么选。外国专家安德鲁阿贝拉(Andrew Abela)将图表中显示的关系分为四类:比较、分布、构成和联系。然后,根据这种分类和数据状态,给出了相应的图表类型建议。当我们不确定使用什么类型的图表时,我们可以参考这个图表。
00-1010俗话说【没有编码的交互不是一个好的数据可视化设计者】,现在市场上有各种各样的可视化方法和工具,但是坦白说【这些可视化工具都是大坑!】,为了做好可视化,最好的办法就是掌握一门编程语言。只有这样,你才能最好地把你想传达的数据信息表达清楚。
在这里,我想向想跳进数据可视化大坑的设计师推荐一下Processing,一种有创意的编程语言。
处理是由麻省理工学院媒体实验室下属的美学和计算小组创建的(一种由设计师制作的编程语言)。很好用,代码逻辑也很简单。几段代码可以做出非常有效的展示。
但是Processing没有代码提示的功能,用起来还是很痛苦的。通常是因为一个单词拼错了,程序才会给出错误。但是后来我发现Subilme Text可以支持Processing的编译环境,提供代码提示功能,就像发现新大陆一样。从此,Processing不再难以使用。
用Processing确定实施后,我们继续做PM2.5的可视化演示中华人民共和国环境保护部将空气质量分为六个等级,用绿、黄、橙、红、紫、棕六种颜色标注。为优良、良好、轻度污染、中度污染、重度污染和重度污染六种空气质量。如果要展示PM2.5历年的实际情况和发展趋势,可以把每天的空气质量转换成不同颜色的小方块。
展示当天的PM2.5情况。
先在纸上画一个简单的草图。已年为划分,下面用小方格展示该年内每天的空气质量是什么等级,把当天的PM2.5数值转换对应的颜色值。
代码很简单的,我大概编写了40来行就完成了,代码逻辑很简单就是导入数据,判断当前数据的值是多少,根据不同的值属于小方块不同的颜色。
实现之后,看起来就是这样子的。日期时间轴是按照1月到12月排列的,通过上面的图示我们可以比较清楚的看到污染程度比较高的时间是集中在开头和结尾,就是1-2月,11-12月之间,也就是每年冬天就是PM2.5污染程度高的时间。
我们继续把成都历史的数据可视化后来看下。我们发现12年之前成都空气质量都还不错的,在14年的时候,就没有小绿格了,可见14年成都空气质量有多差劲,15年、16年后慢慢的开始有点好转,应该是政府开始治理了。我们在把北京,上海和深圳的天气拔来看看。
第一列是成都08-16年的空气质量,第二列是北京的,第三列是上海的,第四列是深圳的。可见深圳的空气质量完爆成都、北京和上海。几乎全是小绿格,真是宜居好地方啊。而帝都北京空气质量是这四个城市中最差的。
小结
将数据可视化后,我们可以发现数据中更大的意义,最重要的还是实践做出来,这篇文章简单的讲解了下可视化的整个过程,我们如何寻找数据,以及做出有意义的可视化图表出来。希望更多的人兴趣,一起来做数据可视化。