薛宇这篇《BMC Systems Biology没有学术不端》写作水平还真是高啊,先来个不拉干的小事情,用了软件没引用,来铺垫并以此对抄袭事情进行定位/定性。再来一堆论据和结论不相关的逻辑来论证,好像很有道理的样子,不明真相(没有读我的4篇连载)的群众很容易就掉坑里了。

首先讲了他和R教授的故事,那只不过是用了工具没引用而已,和抄袭是两码事!试图把抄袭写成与此类似的「忘记引用」!

比方说我给R教授写信,就只是问有没有用我的工具。都是聪明人,话不需要说的那么透,点到为止就得了。那您要问,如果人家不回信或者耍赖说没用呢?很简单,三天不回信我会立马写信杂志社,说作者用了我的东西并且刻意没有引用也没有致谢,态度极其恶劣建议撤稿,并且把我三天前发的信抄给编辑作为证据。

为了把抄袭这种严重的事情与用了工具没引用这种简直太常见且不值一提的小事做类比,薛宇教授是用心良苦啊,把小事给说大了!

这就是牛逼之处,我不得不服,用小事与大事类比,将大事说小!将小事说大,让大事化小于无形中。

有德国学者使用了GOSemSim的代码设计了预测蛋白质相互作用的工具IntScore,发表在2012年的核酸研究上,作者专门写了一节来介绍GO的语义学相似性并且标明引用,所以这篇文章符合学术规范,没有问题。我们再看看DOSim,这篇文章里注明了GO注释的分析使用的是GOSim并且加了引用,所以也没有问题。

这段话很有水平,首先是不对等类比,以2012年NAR的符合学术规范的文章来类比一篇抄袭文章,试图化抄袭于无形中。

我们来看所谓的一节专门介绍和标明引用是怎样的:

GO semantic similarity

This method calculates the similarity of the GO (29) terms annotated to interacting genes/proteins, taking into account the overall structure of the GO to assess the specificity of shared annotations (30). The rationale behind this method is that genes/proteins that interact in the cell are more likely to participate in the same biological process and cellular compartment (31). Accordingly, true positive interactions are expected to have more similar GO annotations and get higher scores than false positives.

其中30的引用就是GOSemSim,这是很正常的介绍,而薛宇教授写专门介绍,是为了弱化抄袭者专门介绍别人实现的方法。

我们再看看DOSim的引用:

A gene module is a group of highly correlated genes. In DOSim, gene modules can be detected as follows: after the gene similarity matrix for a gene set is constructed, a hierarchical clustering is performed using the standard R function hclust and one of three branch cutting methods is applied (one constant-height cutting and two dynamic branch cutting methods are embed in our package) [24].

The DOSim package incorporates multilayered enrichment analysis (GO and KEGG annotation) to explore the biological meaning of the detected gene modules. The GO annotations are conducted using GOSim [25] and the KEGG annotations are generated using SubpathwayMiner [26]. The input for GO and KEGG annotations is a list of Entrez gene IDs, the mechanism implied in each annotation database is the hypergeometric test, and the outputs for each annotation database are the enriched terms with p-values.

DOSim这篇文章说用DOSim算了一堆基因的相似性之后,可以聚类分析,然后分一些gene module,这些gene module呢,可以用GO和KEGG来注释一下,是什么功能和通路,而GO的注释用了GOSim,这样的引用和DOSim说自己实现了其实是GOSim实现的方法,完全不拉干。

我们再来看看教授的话:

我们再看看DOSim,这篇文章里注明了GO注释的分析使用的是GOSim并且加了引用,所以也没有问题。

「这篇文章里注明了GO注释的分析使用的是GOSim并且加了引用」,这个论据是对的,然而DO和GO一字母的差别,结论和论据却是不相关的。

引用与不引用

Citation真心不是重点,重点在于proper citation

在教授的眼里,一切事情只要有引用了,就是规范了,就不侵权了,就没有抄袭了,就没有不端了。

让我们再来复习一下抄袭的定义:

plagiarism |ˈpleɪdʒərɪz(ə)m|

the practice of taking someone else’s work or ideas and passing them off as one’s own.

DOSim就算引用了GOSim,但只要在文章里,把GOSim实现的算法当成是自己实现的来介绍,就是抄袭!

恶意和非恶意

科学研究中100%不出错是不可能的,有错也分无意和恶意,不能一概而论。

薛教授的文章里出现了大量这类正确的言论来洗地,也是高明之处,我们当然不能恶意去揣摩别人的出错。用了薛教授的工具忘记引用,当然可能是无意,也可能是有意,但薛教授可以以恶意推断,并且如果对方没有三天内回信且道歉态度良好,则要去告发撤稿。(对方如果在假期中就惨了,我们为R教授庆幸)。而抄袭却不能以恶意来推断,可能是无意为之,可能通讯作者并不知情。

有意与无意,在我看来,要看证据,而不是凭三寸不烂之舌!像用了工具忘记引用,如果没有刻意回避,没有在文章中写是用了in-house script的,你没有证据证明别人是有意的,那可能就是无意的,你不能下结论!但只要文章中有刻意的行为,你才能下结论是有意。这就是为什么统计假设中你要推翻的是H0,而反过来却不行。像ppiPre这种刻意改函数名字、删代码注释的行为,就是恶意!在文章在写自己实现其实是我实现的方法,就是恶意!

关于抄袭

当我讲文章抄袭的时候,你们跟我大谈开源就是给人抄的。我回过头来跟你说开源也不允许这么恶意抄(https://www.gnu.org/licenses/gpl-faq.html#IWantCredit),你们就跟我说这是忘记引用了。

我这里重申一遍。这个抄袭是两个层面的,一是代码,根本没有按照GPL license来。二是文章,把别人做的东西当成自己做的来写。在文章的层面上,即使他抄代码是按照GPL来的,没有代码的问题,文章这样写,也依然是抄袭。此处有必要再放一次抄袭的定义:

plagiarism |ˈpleɪdʒərɪz(ə)m|

the practice of taking someone else’s work or ideas and passing them off as one’s own.


薛宇教授文章中大量结论性的语言,有一种「年轻人,我有个观点想给你」的姿态。而且还流露出一种,我是个学生,出来JJYY什么的,让通讯作者们点到为止,和和美美做科研。这也是本文标题的来源。