R包辣鸡之CorMut

曾经QQ上有人叫我帮忙，跑某个R包做个分析，我一看那包，一堆bug，显然不能用，那就不是简单的事了，我可没空帮他写代码，于是他就经常恶心我，有事没事就来说我写ggtree没意义，不是实质科研，不如跟他做点牛逼的，不如再写个R包干他那事。昨天用马甲在进化群里问画树，我还热心贴个代码给他，说看不懂，我在群里说了，我写个文详细介绍一下。然而他的马甲身份暴露啦，所以今日跳票，我写好的文也不发了，你牛逼就不要用马甲来骗代码呀，ggtree没用你不要用呀，叔就是这么任性😎

之前讲过某个R包我一看一堆bug，直接放弃，今天倒是拿出来晒一下，不为别的，我只想说一句，一知半解是很危险的，盲目相信软件也是很危险的。

比对？不比对？这是个严肃的问题

话说此包的输入是alignment，我刚开始也没看代码，照着示例跑一下，但读序列的时候，我就惊呆了，怎么读个fasta这么慢，于是我开始看代码，不看不知道，一看吓一跳：

seq_f01=as.list(sapply(allSeq,function(x)c2s(s2c(x)[ref01!="-"])))

这个s2c把string变成character vector，c2s则反过来，这一句就干一件简单的事情，就是把所有string（fasta读进来的sequences）中的-全部删除。就这么一切一贴，非常非常慢，简单地用gsub(“-“, “”, allSeq)就可以非常快速做同样的事情。然后这时候我们似乎觉得那里不妥！你把-全删了，等于是把比对序列变成了非比对序列。那么你要求输入是比对序列是为什么？！确实序列必须得是比对好的，因为这包就是要检测correlated mutations，它比的是codon, 这必须是比对好的序列才行，但在读序列的时候，就把-给删了，序列不再是比对好的，本来对应的codon现在必然很多都移位了，这在一开始就挖了巨大的坑。后面所有的计算必须都是辣鸡了。

codon比较，数数字你会吗？

https://github.com/Bioconductor-mirror/CorMut/blob/master/R/CorMut-internal.R#L125-L129:

for(j in 1:length(seqf[[i]])){
	if(j%%3==1){ tris=seqf[[i]][j:(j+2)]
	}else if(j%%3==2){ tris=seqf[[i]][(j-1):(j+1)]
	}else if(j%%3==0){ tris=seqf[[i]][(j-2):j]
}

这循环竟然不是一个codon一个codon来，而是一个base一个base地迭代，这里移动三个位置，拿到的都是同一个codon，然后它就去比较是否不同，数数目了，一个不同，数它3遍，我也是醉了。

p值你会算吗？

https://github.com/Bioconductor-mirror/CorMut/blob/release-3.4/R/kaksAA.R#L67-L77:

LOD=0
Nnum=NS+NY
for(ii in NYs:Nnum){
	per_item=choose(Nnum,ii)*(q^ii)*((1-q)^(Nnum-ii))
	#avoid the appear of NaN
	if(per_item!="NaN"){
		LOD=per_item+LOD
	}
	#print(choose(dim(mat)[2],i)*(q^i)*((1-q)^(dim(mat)[2]-i)))
}
LOD=-log10(LOD)

我们知道算p值是算积分面积，它倒好，离散性分布这一个个数字来计算，然后求合。这里用的是二项式分布：

per_item=choose(Nnum,ii)(q^ii)((1-q)^(Nnum-ii))

这个基本上你算出来会有很多0和NaN，精度问题嘛，这样算必须是不准的。然后他必须是跑了自己代码出不来p值，发现有很多NaN，也不去想为什么，直接把NaN给扔了。这根本就是错的，也不知道用pbinom去算，我也是服了。

总结

我只是粗略地看了一下代码，就发现很多错误，而且几乎每个重要的部分都出错。问题肯定比我粗略看一下所能发现地多得多。

读序列，把比对的序列搞成了非比对。
比较codon，序列非比对这比毛线啊，然后连数数目都数错。
p值，简单二项式，你都不会算啊，简单粗暴地对NaN视而不见。

这货中国CDC出品，竟然还发了Bioinformatics，reviewer简直瞎眼了！

R包辣鸡之CorMut

比对？不比对？这是个严肃的问题

codon比较，数数字你会吗？

p值你会算吗？

总结

Guangchuang Yu

那些我讲过的oral

2016潮博沙龙

2016中国R语言大会

我不会用illustrator，只会用ppt！

biobabble的作者们

欧式距离如何应对缺失值

ggupset -- ggplot2版本的upset plot

你还在愁毕业？隔壁实验室的小哥从网上抄了几十行代码打了个R包，发了SCI，毕业了！

港校申请指北：考研考博失利之后的另一选择

为什么港校是一个选择

听说你想把pheatmap和ggplot2拼在一起

请问，你是要我帮你google吗？

怎么提问，是需要学习的

clusterProfiler事后丸: 转换ID为SYMBOL