数据可视化基础

数据可视化是什么?

很多人觉得数据可视化十分容易,无非就是对已有数据调用一些简单的画图函数,生成简单的折线图、柱状图等,仅仅是将数据转化为简单统计图的工具而已。其实不然,数据可视化是就是把数据转换为图形图像的方式,帮助人们理解大量的和复杂的数据。在数据简单的情况下,可能使用简单的柱状图、折线图可以完成可视化的任务;随着数据量的增大、复杂度提高的情况下,数据可视化的难度也就越来越大。可视化主要有以下三个研究方向:

  • 科学可视化:主要研究如何可视化科学研究中产生的大量数据,这些数据本身往往包含 在真实世界中存在的几何结构。
  • 信息可视化:主要研究的是抽象数据 如文本、图像、网络、股票、社交媒体等,这些数据本身并没有看得见摸得着的几何结构。
  • 可视分析:主要研究的是数据挖掘等自动算法,加重了系统中的分析含量;可视化的目的可以概括为记录信息,分析推理,证实假设,交流思想。

这三个研究方向对应三个顶会:IEEE conference on scientific visualization (SciVis),IEEE conference on Information visualization (infoVis),IEEE conference on visual analytics science and technology(VAST)。

数据可视化和数据挖掘的区别

可视分析和数据挖掘的最终目标是一致的,即理解数据。但数据挖掘更偏重于研究各种自动算法来充分利用计算机的强大计算能力,而可视化则更偏重于设计交互的图形展示,以便利用人的强大的视觉处理能力和领域知识。

香港科技大学的屈华民老师认为:
数据可视化和数据挖掘之间的关系就像风景照片里面山与水的关系——就像一个好的风景往往同时包含山和水,一个好的大数据解决方案必然同时拥有强大的数据挖掘能力和充满灵气的可视化展示

数据可视化的三个标准

数据可视化的奠基人耶鲁大学的Edward Tufte教授认为,好的可视化图应该有三个标准—— “ 信 雅 达 ”

  • :真实地表达丰富的数据,避免扭曲数据( avoid distorting data )
  • :目的清晰、发人深省,激发观察者去比较不同的数据内容( serve a clear purpose and encourage the eye to compare )
  • :有美感( aesthetic ),当然与以上两点相比,此标准居次席

对于可视化而言,虽然可视化图的美感真实、清晰想比是次要标准,但是可视化呈现得美观也变得越来越重要。

在《数据可视化之美》这本书里,提到什么是有美感的可视化。漂亮的可视化有下面这些标准:

  • 美感:美感很难形容,但你看到了,你就会知道。
  • 新颖:普通的图形表示很难让人兴奋,它们已经变成了陈词滥调。漂亮的可视化,往往有新奇的元素,能让人兴奋。
  • 简单有效:没有太多华而不实的元素,能有效地表达出数据里的故事,简单有效( Simple and effective )就是所谓的科技的优雅。

可视化和设计的关系

可视化系统的设计经常需要遵循一些原则,这些原则有些是从别的领域(如人机交互)借鉴过来的,有些则是大量实践的过程中总结出来的。其中设计领域中的很多原则都可以在可视化系统的开发中得到应用。事实上,很多可视化系统本身就是直接受到平面设计作品,尤其是信息图( Infographics )的启发。

大数据可视化中的挑战

大数据的可视化系统开发面临一些前所未有的挑战,主要有以下几个方面:

  • 大数据本身包含很多的噪音,如数据的不完整和不精确。如何将这种不完整、不精确性用可视化的方式传达给用户是一个难题。
  • 因为大数据本身的规模和复杂度,完全依靠专业的分析师进行分析不是完全行得通。如何利用众包的方式,以可视化为工具,让大家都成为数据分析中的一员,是一个值得研究的课题。
  • 大数据的“在位分析”(In-situ Visualization)。对于大量的动态数据,如何直接进行分析, 而不是先把数据放到数据库里,然后再从数据库倒入内存中进行分析,是另一个非常值得探索的方向。
  • 异构数据(不同类型的数据如文本、视频、传感器数据)的可视化问题。

参考文献

  • [1] 屈华民. 大数据时代的可视化与协同创新[J]. 新美术, 2013, (11):21-27.
  • [2] 数据可视化的基本原理与方法[M]. 科学出版社, 陈为, 2013
  • [3] 数据可视化之美[M]. 机械工业出版社, (美) 斯蒂尔 (Steele), 2011