ppiPre抄袭了GOSemSim的代码,证据当然非常充分,比对一下代码就知道了,我在Proper use of GOSemSim一文中,做出了一些比较,另外也可以参考github页面,github记录了ppiPre被暴光抄袭之后所做的修改。 从我给BMC Systems Biology的编辑反馈这件事开始,在这铁板钉钉的事实面前,编辑拖了整整一年,而这一年时间过去了,ppiPre仍没有被编辑部受理。从最早反应这件事情,编辑信誓旦旦说他们很重视这种事情,到后面对我的邮件视而不见,我愿意相信编辑部处理这些事情,需要时间,他们有自己的规则,但一年的时间,不回邮件,冷处理以淡化此事,这绝对不是应该有的规则。 在编辑一直无视我的情况下,我写出了Proper use of GOSemSim一文,列举了一些一模一样的代码,并告知CRAN,当ppiPre被CRAN移除时,我写信给编辑,这时候,编辑告诉我说他们准备要去联系作者了,这时候已经过去半年了,是的!你没有看错,半年过去了,编辑说他们还没去联系作者!我是不相信的。必然是联系了之后,有某些不为人知的原因,所以编辑态度反常,对抄袭这种打鸡血的事情,不断在打太极。

再过二个月,ppiPre的作者邓岳给我写了信:

Continue reading

在进行测序的时候,需要将DNA打断,构建library,这些fragment需要接上adaptor,好进行扩增,illumina的测序,可以有single end和paired end两种,分别从一端和两端进行测序。

fragment                  ========================================
fragment + adaptors    ~~~========================================~~~
SE read                   --------->
PE reads                R1--------->                    <---------R2
unknown gap                         ....................

Continue reading

从2011年1月我就在实验室的QQ群里发群邮件说IPI关门,时至今日,已经关门3年了,主页上一直停留在关门大吉的那一刻。 我不断在邮件里, lab meeting上强调要换成uniprot来搜库,然而时至今日,依然还是有很多的人在使用IPI,想想真可怕,实验室真是100年不更新一下数据啊。 另外一个我非常讨厌的就是GI号,它压根就不是正儿八经的ID号,但他们从来就不愿意尝试改变。 比如上面这个蛋白质序列的FASTA文件,注释行有很多信息,比如: >gi|16128001|ref|NP_414548.1| putative transporter [Escherichia coli str. K-12 substr. MG1655] 显然搜库时可以使用NP_414548.1做为ID,这个问题我说过N多遍,但他们一定会用他们惯用的gi|16128001来做ID。 问题是很明显的: GI number (sometimes written in lower case, “gi”) is simply a series of digits that are assigned consecutively to each sequence record processed by NCBI. The GI number bears no resemblance to the Accession number of the sequence record. The GI number has been used for many years by NCBI to track sequence histories in GenBank and the other sequence databases it maintains.

Continue reading

TALEN基因编辑

分子生物学的基础和兴起离不开各种酶的发现和抗体的制备。没有抗体,蛋白质就玩不转,没有限制性内切酶和连接酶,就没有基因工程,如果没有耐高温酶的发现,连PCR都是件痛苦的事情,写到这里,我突然觉得做细菌也是蛮好的,因为比较有可能发现一些功能比较奇特的蛋白,而这些蛋白,一经改造,可能就是技术上的革新。 TALE(transcription activator-like effector)也不例外,最初在植物致病菌黄单胞菌(_Xanthomonas_)中被发现,在致病过程中,能够特异性地结合和调控植物基因。 TALE的结构中间(红色部分)是重复序列,介导DNA识别,每一个重复片段为33-35个氨基酸,其中12和13位置两个氨基酸决定碱基偏好性,这两个相邻的氨基酸被称之为重复可变双残基(repeat variable di-residue, RVD),RVD所编码的靶标碱基由上图b所示,基本上你看一段TALE的重复序列,就可以预测到它将结合到什么样的DNA序列上,或者你看一段DNA序列,可以很容易地设计结合它的TALE重复序列。 N端通常是288个残基,其中Δ152做为截断点,去掉前面用于进入植物细胞的功能,而保留TALE蛋白的其它功能。C端通常是278个残基。 中间重复片段的特性使得TALE很容易被改造,应用于各种定点靶向的场景。 Activator 2011年发表在NBT上的文章《A TALE nuclease architecture for efficient genome editing》将TALE改造成促进特定基因表达。将天然TALE进行PCR扩增,去掉前面152个残基,重复序列改造为结合NTF3的启动子邻近区域(proximal promoter),C端连上VP16(转录激活结构域),结果诱导超过20倍的表达。NTF3基因编码一个分泌性的生长因子,对神经退行性疾病有一个的治疗功效。作者把C端截断,保留95个残基再接上VP16,同样也是mRNA超过20倍的表达。 Nuclease 位点特异性的核酸酶是基因组工程的有力工具,产生断裂的双链DNA(double strand breaks, DSBs),可以进行同源重组、靶向插入、删除。锌指蛋白(zinc finger protein)连接FokI的水解结构域,构成了锌指核酶(zinc finger nuclease, ZFN)被用来进行基因组编辑,但是ZFN的特异性和效率较差,可重复性不好。 TALE的单碱基识别能力,显然在特异性上是无可比拟的,有了TALE,TALEN(TALE-nuclease,TALE接上核酸酶)技术应运而生,特异性好,效率高,而且可以应用于各种物种。TALEN通常以同二聚体(homodimer)或异二聚体(hterodimer)对DNA从两端进行切割,两端切割点的距离(spacer length)可以是10-30bp之间,取决于linker的长度,即连接重复结构域和切割结构域的长度,长的linker,需要长的spacer,反之亦然。 两端切割后,产生DSB,就会引起系统对其进行修复,Miller等使用TALEN对NTF3基因进行切割,产生DSB,随后进行非同源末端连接(non-homologous end joining, NHEJ)修复,NHEJ在没有同源序列做为模版的情况下进行修复,这是一个不精确的修复途径,结果产生了3-30bp的删除。 NHEJ是容易出错也不好控制的,可喜的是还存在一条精确可控的途径,同源依赖修复(homology dependent repair, HDR),在有供体ssDNA存在的情况下,通过HDR途径,可以对基因进行编辑,插入和缺失处理。 于是牛B的事情就产生了,2012年Nature的文章报道在斑马鱼活体组织里使用TALEN技术,引入了定制的EcoRV位点和修改的loxP序列。 Reference 1. Miller, Jeffrey C., Siyuan Tan, Guijuan Qiao, Kyle A. Barlow, Jianbin Wang, Danny F. Xia, Xiangdong Meng, et al. “A TALE Nuclease Architecture for Efficient Genome Editing.

Continue reading

如何获取文献

这个题目又标题党了,不过是share一下一些地球人都应该知道的小tips而已。 据说是电信出口出了问题,学校里这两天大家都在叫pubmed上不去,我反正是上得去,就是慢点。大家好像少了pubmed就无法干活似的,不过也是,正所谓:熟读唐诗三百首,不会作诗也会吟。 1.有备无患 pubmed上不去,完全没影响,因为有hubmed,hubmed主页上写着:An alternative interface to the PubMed medical literature database,所以完全可以把它当作是pubmed的镜像。这个站点至少我在暨大上是超级快的。搜完底上还有链接,让你很方便地用同样的关键词在google (scholar),Scirus, CrossRef,EBIMed等其它数据库里搜。 另外一个备选的站点是gopubmed,这个站点的亮点是整合了ontology。 最近欧洲大名鼎鼎的EBI也开始搞文献服务了,新开的Europe PubMed Central,我比较喜欢它的排序功能,可以按文章的相关性或引用数来排。除了文献之后,还可以biological patents, clinical guidelines, PhD theses and research reports。这个站点现在刚创立,我觉得一两年之后,肯定会有更多的服务提供,前途无量啊。 文献管理 读文献是人干的事,管理文献却是疯子干的事。如果你还活在手工整理文献的黑客帝国里,请赶紧吞下红色药丸。 3.个性化推荐 上网买本书,电商都会推荐给你,某本书可能你也想买。这是个性化推荐的时代,读文献也不例外,Google Scholar的新功能My updates,干的就是这个事,可以根据自己文章的内容,推荐相关的最新文献,想要用到这个功能,你需要建立google scholar profile页面。 4.订阅 RSS改变了人类的阅读,很多的期刊都提供了RSS,如果你是火星人,不知道啥是RSS,那么打开你的QQ邮箱,点一下阅读空间,那玩意实现的就是RSS订阅了。个人比较推荐google reader。 另一个值得一提的是NCBI的个性化服务My NCBI,你可以设定关键词,当pubmed上有新文献和这个关键词匹配的话,NCBI可以定期给你发邮件提醒。 5.求文献 科研大军越来越庞大,笑到最后的是各大出版社,不是读者给它送钱,就是作者给它送钱,当我们点full text时却被告知没付费么有permission,天下文章一大抄,没得抄是多么的不爽。我以前喜欢在FriendFeed上的references wanted里求下载。不过上friendfeed需要一支红杏出墙来。现在好了,国内的丁香园有个一键求助的功能,是个求文献的好去处。 6.下文献 文献下不了,很多时候是不用求的,sci-hub.org这个代理就是个下文献的好地方,比Phosphoproteome profile of human lung cancer cell line A549这篇文章的网址是http://pubs.rsc.org/en/Content/ArticleLanding/2011/MB/C0MB00055H,把URL加上sci-hub.org这个代理,变成http://pubs.rsc.org.sci-hub.org/en/Content/ArticleLanding/2011/MB/C0MB00055H,就可以下到相应的PDF文件。 欢迎补充。 PS:今天收到一颗树~

Continue reading

几年前自己总结出来的,就两个字“标记”,可以概括大部分的生物学实验的基本原理。 这个方法,中国人民老早就在用了,八仙张果老成仙那段,张果老吃的人参精,就是因为被弄了根绣花针才被捉的,还有蓝色的葫芦娃,会隐身,小时候看的,记不清怎么被捉的,肯定也是被标记了。。 生物学实验都是些看不见,摸不着的东西,所以基本上都是使用这个方法,看不见的,我们拿看的见的去标记它,测不着的或者不好测的,拿可以测容易测的去标记它。很多的实验手段,其实最初都是很简单的,为了提高灵敏度和精度,不断改进,越来越烦琐,抑或者出现了一些分支。通常这时候,最初那个简单的,最根本的东西就被人所忘记。看到的尽是表面上的细节。至少现在的书太二了,本来基本上一样的实验,阐述原理的时候被描成了两样的东西。 同位素标记,荧光标记自不用说。芯片实验也是标记,array上的spot序列是已知的,它会跟什么基因杂交,也是已知的。我们并不知道会有什么基因表达,但是当抽提的东西,跟某个spot有杂交信号的时候,我们就知道某个基因有表达。这就是标记。还有我们需要知道表达的量,这个依然不好测。同样也是使用标记,用cy3或cy5来标记,通过检测荧光的强度,就知道了表达的量。 所有的杂交实验都是标记,southern blot, northern blot, western blot都是。不管是核酸还是蛋白,不管它是用什么介质。都是用一个已知的,去标记一个未知的。通过测已知来估计未知的东西。 跑胶的时候,拿去紫外灯光下看。同样也是因为标记。DNA我们是看不到的,但是在DNA下嵌入了EB,可以在紫外灯光下看到EB,所以我们也就看到DNA。 所有的切片,都是在做标记,不管是用于光镜还是电镜,其实电镜本身和光镜是没本质区别的,因为可见光的波长范围很有限,电子也是一种波,成像原理是一样的,只是我们不能直接看到而已。使用电子是为了突破可见光的局限而已,使用光镜需要对细胞进行染色,使用电镜也是一样,不过染的不是染料,而是金属。 测蛋白,用考马斯亮蓝染。在280nm有吸收,那是因为苯环的共轭电子对。虽然不是标记上去的,但也可以这么想,反正是测一个我们已知的东西,来估计未知道的东西。 DNA测序,给四种碱基标上不同的荧光。 还记得脂肪代谢是怎么被揭开的吗?使用接了苯环的脂肪酸喂马,收集马尿去检验,因为马不能代谢苯环。所以拿苯环去标记脂肪酸。 还有那个DNA还是蛋白是遗传物质的实验,肺炎双球菌实验。分别用S和P的同位素标记蛋白和DNA。 还有一些看似不是标记的,其实也是标记,比如酵母双杂交,因为转录因子都有一个DNA-binding domain和一个RNA-binding domain,我们并不能直接检测到蛋白X和Y是否有相互作用,但我们可以表达溶合蛋白DBD-X和RBD-Y,如果XY有相互用用的话DBD和RBD就会在一起,就是一个有功能的转录因子,就可以转录报告基因,检测到报告基因,就表明了XY有相互作用,这就是标记,拿DBD和RBD去标记X和Y,通过DBD和RBD的行为去估计X和Y的行为。 DNA重组也使用标记,我们无法直接检测到是否重组了,是否在需要的位点重组了,所以使用了报告基因来做标记,检测到报告基因了,表明重组了,使用抗药基因,在加了药物的培养基上筛选,活下来的表明重组正确。当然有假阳性。抗药基因也是“标记”。 基本上绝大多数的实验原理,最根本的一个想法,就是使用一个已知的,或者容易检测的,去标记一个未知的,或是难以检测的。 实验的手段太多了,很多人搞不清原理。做实验的人,通常就是照着实验手册,一步一步在加东西而已。只要稍微思考一个,很多东西,其实不用记。细节的东西不需要记,需要的时候查就行了,当是基本的原理还是需要理解的。不然白学了。 很多人觉得生化就是一堆描述性的实验结果。其实很多东西也是不需要记的。举个例子,比如说DNA转录的时候,组蛋白会被乙酰化,这个细节很多人就是死记下来的,当然国内的书太二了,很多书没说乙酰化的位点是Arg和Lys,不过告诉这个事实,很多人还是死记下来。其实想一下,理解了,就不用记。为什么是这两个AA,而不是其它的?组蛋白之所以带正电就是因为富含这两个AA,这两个AA都有-NH,带正电,正是由于乙酰化了这两个位点,屏蔽了正电,DNA是带负电的,所以乙酰化之后正负电引力变小了,结构就松散了。有利于转录。这个东西就变得理所当然一样,根本不需要记。

Continue reading

Author's picture

Guangchuang Yu

a senior-in-age-but-not-senior-in-knowledge bioinformatician

Postdoc researcher

Hong Kong