掐架的额外收获
《你昨天才做的分析,可能是几年前的结果!》这篇文章给大家敲了警钟,各种各样的web-server,要小心看有没有维护更新,有些是五年十年都不更新的,十分可怕。文章虽然讲的是富集分析,但其它分析工具你同样需要小心。
当然并不是说独立的软件/软件包就一定靠谱,如果软件自己打包了数据,同样要注意数据是否有更新,而如果数据不打包在软件里,而是在线获取,你同样也该留一下心。这也是clusterProfiler做富集分析的优势所在,KEGG数据是在线的,永远是最新的,而GO的数据不在软件包里,而依赖于别的数据包,而这些数据包是社区维护的(相对而言,个人的维护比较难以为继),就确保了数据一直在有更新维护的。
Bioconductor每半年发行一次,注释包同样每半年更新一次,所以你用clusterProfiler做GO分析,你用的GO数据库不会说超过半年没更新,而不像有些公司给出的结果,落后于这个世界不是一年两年这么简单。
Bioconductor最近一次是10月31号发布的3.6版本,如果你还没更新,是时候看一个《Update R packages》然后来一发了,如果你更新了,也要再来一发,因为我上次的掐架,《请用事实怼我 -,-》,为社区带来了好多注释包的更新。
用clusterProfiler的好处还在于你是知道GO数据的更新日期的,上一次《请用事实怼我 -,-》的时候,我发现GO的数据还是2017年3月份的,证明10月份发布新版本的时候没更新,我就去Bioconductor说他们没更新,所以说是掐架带来的bonus,给社区做了点贡献。这也是我说的社区维护的好处,用户反馈是非常有用的,而且在帮助自己的同时,也帮助了大家。
在我的push之下,数据源终于更新到了2017年11月6号,当然KEGG的数据永远定格在2011年3月15号。
而《请用事实怼我 -,-》里某公司的分析,已经是几年都没更新了,肯定之前是有客户发现的,然而就像某公司员工出来掐一样,先是客户无知,他们肯定、必须是最新的。在打脸之后,说什么:可能跑流程的人没有改参数。尼马我还能说什么呢。而且做科学不是用数字说话,不是用事实说话,而是他做为某公司员工,要为「科学共同体」打call,厉害了,听得我一脸蒙逼。