生物坑很多人画图只会直方图,统计只会T检验,在暨大见过太多的学生连T检验都不会,分不清SEM和SD的差别,也不清楚T检验那几个简单参数的含义。我写统计笔记也是因为不想重复性地跟学生讲解T检验。

Barplot和T test一样普遍而流行,barplot适合于表示计数数据和比例,显示比例也可以用pie plot,但直方图比饼图要好,因为人类的眼睛适合于比较高度,而不是弧度。

多半时候生物学数据并非简单的计数数据,对于测量数据,在展示数据分布时,很多人会使用他们熟悉的barplot,用高度来表示mean,然后再加上errorbar,这样展示数据,信息量是非常低的,使用boxplot能够提供更多的数据分布信息,能更好地展现数据,但可能很多人只会在excel里画barplot,Nature Methods 2013年的文章中有100个barplot图,而只有20个boxplot图,从这里就可以看出来,用boxplot的人远远没有barplot多,于是NPG怒了,写了两篇专栏文章Points of View: Bar charts and box plotsPoints of Significance: Visualizing samples with box plots并且发表了一篇BoxPlotR: a web tool for generation of box plots方便大家画boxplot,如此简单的web tool能够发Nature Methods,实在是让人羡慕妒忌恨啊。

Boxplot从1970年由John Tukey提示,到现在已经40多年了,他有很多的变种,比如violin plotbeanplot,violin plot和beanplot是很像的,都是把box换成density curve,beanplot另外把数据点在中间用线条表示出来,这个很容易加上去,正如我在violin plot中把数据点加进去一样。同样可以把数据点加进boxplot中,还有很多手法来展示boxplot,比如可以用缺口(notch)形式来画boxplot,可以把中间的宽度表示为median值的置信空间。boxplot的宽度可以用样本量来归一化,如果sample size足够大的话,$mean\pm errorbar$ 不会超出box,可以很清晰把这个信息也展示在boxplot中。

如果数据量比较少,可以用scatterplot+errorbar的形式展示数据,正如我在Phosphoproteome profile of human lung cancer cell line A549中所画的图7