Guangchuang Yu

a senior-in-age-but-not-senior-in-knowledge bioinformatician

love function plot

Aug 6, 2011 - 1 minute read - Comments Visualization

今天在微博上看到这坑爹的方程: $ (x^2+y^2-1)^3 = {x^2} {y^3}$ 画出来如下: 跟个屁股似的,sigh… 翻出azalea的老文:http://azaleasays.com/2008/06/18/fomula-of-love/ 用ggplot2画一下这个爱的方程:$17x^2-16|x|y+17y^2 = 225 $ x <- seq(-sqrt(17), sqrt(17), 0.001) y1 <- 8*abs(x)/17 + 15* sqrt(17 - x^2)/17 y2 <- 8*abs(x)/17 - 15* sqrt(17 - x^2)/17 d <- data.frame(x=c(x,x),y=c(y1,y2)) require(ggplot2) p <- ggplot(d, aes(x,y)) p + geom_point(color="red") 还可以画出红心,适合今天七夕的日子。 p + geom_line(color="red") 画函数图,这种事情,还是用CAS方便点。 通过maxima来画,一条指令就行,还不用解方程: contour_plot(17*x^2-16*abs(x)*y+17*y^2-225, [x,-sqrt(17),sqrt(17)],[y,-15*sqrt(17)/17, sqrt(17)])

screen shot

Jun 28, 2011 - 1 minute read - Comments BSDMac OS

买了苹果机,一直放在家里没用,准备开会带去用,拿过来装几个软件。

校园网用锐捷是个比较讨厌的东西。当年在华农,光这认证就搞了很久。

现在开源的认证客户端多了,搞起来也方便了,现在在linux下用的xmuruijie,就比当年mystar好用。

估计xmuruijie也是可以在苹果机上用的,依赖python,搞不好还有些modules要装,懒得去弄,搜了一下,找到mentohust,当然需要改一下mac address,用万能的ifconfig搞定。

为了编译软件,必要先装xcode,这个大家伙,4G多,中午挂到吃晚饭才下完。 然后就可以装各种open source的软件。

mac上有fink支持debian一样的apt-get,还有原生的macport,gentoo的portage也支持,我选择使用netbsd的pkgsrc来安装各种开源软件。

以前用过比较长时间的netbsd,用着比较顺手。

Five things biologists should know about statistics

Jun 24, 2011 - 5 minute read - Comments statistics

Ewan Birney最近的一篇博文(Five statistical things I wished I had been taught 20 years ago )讲述了统计对于生物学的重要性。

一开始从RA Fisher讲起,说生物压根就是统计。Fisher是个农业学家,他所建立的那些统计方法,都是从生物学问题出发。

Ewan所谈及的五个方面分别是:

1. Non parametric statistics. These are statistical tests which make a bare minimum of assumptions of underlying distributions; in biology we are rarely confident that we know the underlying distribution, and hand waving about central limit theorem can only get you so far. Wherever possible you should use a non parameteric test. This is Mann-Whitney (or Wilcoxon if you prefer) for testing “medians” (Medians is in quotes because this is not quite true. They test something which is closely related to the median) of two distributions, Spearman’s Rho (rather pearson’s r2) for correlation, and the Kruskal test rather than ANOVAs (though if I get this right, you can’t in Kruskal do the more sophisticated nested models you can do with ANOVA). Finally, don’t forget the rather wonderful Kolmogorov-Smirnov (I always think it sounds like really good vodka) test of whether two sets of observations come from the same distribution. All of these methods have a basic theme of doing things on the rank of items in a distribution, not the actual level. So - if in doubt, do things on the rank of metric, rather than the metric itself.

Xming-windows下远程linux桌面

Jul 5, 2010 - 1 minute read - Comments WindowsLinux

机房放着台机架机,闲着也是耗电,平时偶尔用putty登上去,没有图形界面还是有些不方便。

搜了一下,发现好几个软件可做这样的事,Xming是开源的,所以选择使用Xming+putty来远程连linux的桌面。

试用了一下,果然不错。

需要修改/etc/ssh/sshd_config,添加:

X11Forwrding yes

需要配置一下PuTTY,Connection-SSh-X11中选中Enable X11forwarding 其中X display location里填入localhost:0

运行Xming,再用putty连到服务器上,运行程序,就OK了。就好像windows下的本地程序一般。整合性很好。

Bootstrap Method

Jul 31, 2009 - 1 minute read - Comments statistics

bootstrap是对观测数据集进行有放回(replacement)的随机抽样,以评估总体的各项统计指标。可以用于假设检验、参数估计。好处是并不要求大样本,也不要求正态数据,并且对于不同的统计指标使用的是同样的计算方法。结果也更为可靠,坏处是计算量大。

统计推断(statistical inference)是基于样本统计值的抽样分布来计算的,抽样分布需要从总体中许多的样本来计算,在只有一个样本的情况下,bootstrap对这一随机样本进行有放回的重复抽样,每一个重抽样本与原始随机样本一样大,每次计算相应的抽样的统计值,重复了N次之后,就可以计算统计值的bootstrap分布。

下面做一个小小的试验:

a <- c(seq(1:10), rnorm(50))  

#创建一个样本,60个数据,非正态分布的,如下图