首先想强调一点数据可视化的重要性,数据可视化是数据分析中的的一种方法,它同其他数据分析方法,比如机器学习等一样重要,它们之间应该是并行的存在,相辅相成,而不是一个锦上添花的事情,不是说我利用机器学习完成一个工作,最后画一个图而已这么简单。数据可视化是通过可视的方式和人机交互的行为来进行数据分析的有效的工具。也就是说,有很多事情机器并不是很擅长,而人很擅长,尤其是视觉,那么,让机器做机器擅长的事情,让人来做人擅长的事情,这二者的结合就是可视化的根本所在。
有了数据可视化,我们可以让海量的科学数据通过艺术的形式进行呈现,让科学与美感相互交融,使无序的信息大山化为纸面的五彩斑斓。下面我介绍几个关于可视化的经典的例子:
1)圣经引用可视化
卡耐基梅隆大学的克里斯·哈里斯(Chris Harrison)就做了这样一个探索圣经文本内容的工作,他把圣经中出现的一些名字和地理位置提取出来进行研究,下面这张图就展现了圣经中各章节之间互相引用的关系。比如圣经中4.3节引用了8.2节中的内容,那么就用一条弧线将两个章节连接起来,最终呈现出下图交叉参考(彩色弧线)被映射到不同章节中的经文(灰条)。其实这个操作是很容易实现的,新颖的是这个想法,在做科研或者工作的过程中,明确可视化的内容很重要,一旦目的明确,实现过程则是一件很容易的事情了。
2)论文引用
下面这个图是关于论文引用的,每一个科研工作者都会发表很多论文,论文中会存在互相引用的关系。下图把这个社群关系以图形的方式展现出来,从图中就可以看出谁在这个圈子里面比较厉害,发表的论文多,引用的别人的论文多等问题。每个点代表一个人,点的大小表示这个人发表的论文数量,点与点之间的连线表示论文之间的引用关系,粗细程度表示了两个人之间论文联系的紧密程度。在呈现社交网络关系上,这种方式很有借鉴价值。这个方法也可以应用在微博上,我们每天都会刷微博,发微博,同时也会转发别人的微博,而别人也有可能会转发你的微博,转化成图形之后其中的关系一目了然。
3)霍乱关系图
下面这个图是历史上利用可视化解决问题的第一个工作。19世纪的伦敦爆发了一场比较严重的霍乱瘟疫,当时医疗条件很落后,还没有显微镜和细菌的概念,所以很难发现病源所在。有一个医生手工画了一张城市街区图,用小黑点表示一个个患者,把城市中患者的地理位置标在地图上,通过位置关系分析,从而找出了水井是发病的原因,因为患者多数分布在水井周围,这个经典的可视化案例也直接说明了数据可视化的重要性。