Guangchuang Yu

a senior-in-age-but-not-senior-in-knowledge bioinformatician

old habits die hard

Jan 22, 2014 - 1 minute read - Comments BiologyResearch

从2011年1月我就在实验室的QQ群里发群邮件说IPI关门,时至今日,已经关门3年了,主页上一直停留在关门大吉的那一刻。 我不断在邮件里, lab meeting上强调要换成uniprot来搜库,然而时至今日,依然还是有很多的人在使用IPI,想想真可怕,实验室真是100年不更新一下数据啊。 另外一个我非常讨厌的就是GI号,它压根就不是正儿八经的ID号,但他们从来就不愿意尝试改变。 比如上面这个蛋白质序列的FASTA文件,注释行有很多信息,比如: >gi|16128001|ref|NP_414548.1| putative transporter [Escherichia coli str. K-12 substr. MG1655] 显然搜库时可以使用NP_414548.1做为ID,这个问题我说过N多遍,但他们一定会用他们惯用的gi|16128001来做ID。 问题是很明显的: GI number (sometimes written in lower case, “gi”) is simply a series of digits that are assigned consecutively to each sequence record processed by NCBI. The GI number bears no resemblance to the Accession number of the sequence record. The GI number has been used for many years by NCBI to track sequence histories in GenBank and the other sequence databases it maintains.

Install Emacs on Mac

Sep 10, 2013 - 1 minute read - Comments Mac OS

package manager

之前一直用NetBSDpkgsrc做为各种Unix-like系统的包管理系统,pkgsrc在自己内部解决依赖关系,这点对于生产环境来说,是很好的一个优点,我通常会在服务器里装一个pkgsrc,在用户目录下,维护一套UNIX软件。但是用在自己的机器上,内部解决软件依赖,就是个缺点,浪费编译时间和硬盘空间。

Mac上可用的包管理系统很多,Fink移植于Debian的apt,Gentoo的portage也支持OS X。OS X是基于BSD的系统,BSD有自己的一套包管理系统,如FreeBSD的ports和NetBSDpkgsrc,MacPorts可以看作是这一系列中的一个,不过它并不是OS X原生的,它只是OpenDarwin的子项目,所以和pkgsrc一个样,也是内部解决依赖,真正为OS X设计的原生包管理系统非Homebrew莫属,它会尽量依赖系统里已有的软件。

Permanent Head Damage to be

Jul 30, 2013 - 1 minute read - Comments Personal

看似寻常最奇崛,成如容易却艰辛。在暨大工作了几年,发几篇小文章,觉得要找个地方读PhD,是件手到擒来的事,结果却花了整整一年的时间,事实证明像我这样的科研屌丝男,举步唯艰啊。 去年7月份就开始在计划这个事情,我几乎想都没想就联系了计算生物所的JD Han,紧接着就是面试,第一次尝试用英文去讲slides,从早上10点讲到中午12点。感觉还好吧,因为有听到Han说impressive,而她的学生又说经常看我blog。看上去还是蛮顺利的,然而最终reject了我,而且没有给我任何原因。

我去上海是非常低姿态的,说要面试,我就飞过去,当时想要是面试OK了,可能会让我留下来先了解一下正在进行的project,所以没有听老婆的话买返程票,结果从上海回广州,就变成了人在囧途,买不到火车票,就去南昌转车,结果遇到两趟车都是慢车,无空调,还无座。这个事情教会了我,不能太低姿态。

我一直在想为什么会去上海,为什么会联系Han,或许是心理学上所谓的契可尼效应,俗称偷不如偷不着,当年考上生没中,心中依然有执念?我自认为早已释然,but maybe..,至于Han,我在研一的时候,去北大听过她的讲座,被系统生物学这个概念忽悠了,可能因此内心抱有幻想。

TALEN基因编辑

Jan 10, 2013 - 1 minute read - Comments Biology

分子生物学的基础和兴起离不开各种酶的发现和抗体的制备。没有抗体,蛋白质就玩不转,没有限制性内切酶和连接酶,就没有基因工程,如果没有耐高温酶的发现,连PCR都是件痛苦的事情,写到这里,我突然觉得做细菌也是蛮好的,因为比较有可能发现一些功能比较奇特的蛋白,而这些蛋白,一经改造,可能就是技术上的革新。 TALE(transcription activator-like effector)也不例外,最初在植物致病菌黄单胞菌(_Xanthomonas_)中被发现,在致病过程中,能够特异性地结合和调控植物基因。 TALE的结构中间(红色部分)是重复序列,介导DNA识别,每一个重复片段为33-35个氨基酸,其中12和13位置两个氨基酸决定碱基偏好性,这两个相邻的氨基酸被称之为重复可变双残基(repeat variable di-residue, RVD),RVD所编码的靶标碱基由上图b所示,基本上你看一段TALE的重复序列,就可以预测到它将结合到什么样的DNA序列上,或者你看一段DNA序列,可以很容易地设计结合它的TALE重复序列。 N端通常是288个残基,其中Δ152做为截断点,去掉前面用于进入植物细胞的功能,而保留TALE蛋白的其它功能。C端通常是278个残基。 中间重复片段的特性使得TALE很容易被改造,应用于各种定点靶向的场景。 Activator 2011年发表在NBT上的文章《A TALE nuclease architecture for efficient genome editing》将TALE改造成促进特定基因表达。将天然TALE进行PCR扩增,去掉前面152个残基, 重复序列改造为结合NTF3的启动子邻近区域(proximal promoter),C端连上VP16(转录激活结构域),结果诱导超过20倍的表达。NTF3基因编码一个分泌性的生长因子,对神经退行性疾病有一个的治疗功效。作者把C端截断,保留95个残基再接上VP16,同样也是mRNA超过20倍的表达。 Nuclease 位点特异性的核酸酶是基因组工程的有力工具,产生断裂的双链DNA(double strand breaks, DSBs),可以进行同源重组、靶向插入、删除。锌指蛋白(zinc finger protein)连接FokI的水解结构域,构成了锌指核酶(zinc finger nuclease, ZFN)被用来进行基因组编辑,但是ZFN的特异性和效率较差,可重复性不好。 TALE的单碱基识别能力,显然在特异性上是无可比拟的,有了TALE,TALEN(TALE-nuclease,TALE接上核酸酶)技术应运而生,特异性好,效率高,而且可以应用于各种物种。TALEN通常以同二聚体(homodimer)或异二聚体(hterodimer)对DNA从两端进行切割,两端切割点的距离(spacer length)可以是10-30bp之间,取决于linker的长度,即连接重复结构域和切割结构域的长度,长的linker,需要长的spacer,反之亦然。 两端切割后,产生DSB,就会引起系统对其进行修复,Miller等使用TALEN对NTF3基因进行切割,产生DSB,随后进行非同源末端连接(non-homologous end joining, NHEJ)修复,NHEJ在没有同源序列做为模版的情况下进行修复,这是一个不精确的修复途径,结果产生了3-30bp的删除。 NHEJ是容易出错也不好控制的,可喜的是还存在一条精确可控的途径,同源依赖修复(homology dependent repair, HDR),在有供体ssDNA存在的情况下,通过HDR途径,可以对基因进行编辑,插入和缺失处理。 于是牛B的事情就产生了,2012年Nature的文章报道在斑马鱼活体组织里使用TALEN技术,引入了定制的EcoRV位点和修改的loxP序列。 Reference 1. Miller, Jeffrey C., Siyuan Tan, Guijuan Qiao, Kyle A. Barlow, Jianbin Wang, Danny F. Xia, Xiangdong Meng, et al. “A TALE Nuclease Architecture for Efficient Genome Editing.” Nature Biotechnology 29, no.

如何获取文献

Sep 10, 2012 - 1 minute read - Comments BiologyResearch

这个题目又标题党了,不过是share一下一些地球人都应该知道的小tips而已。 据说是电信出口出了问题,学校里这两天大家都在叫pubmed上不去,我反正是上得去,就是慢点。大家好像少了pubmed就无法干活似的,不过也是,正所谓:熟读唐诗三百首,不会作诗也会吟。 1.有备无患 pubmed上不去,完全没影响,因为有hubmed,hubmed主页上写着:An alternative interface to the PubMed medical literature database,所以完全可以把它当作是pubmed的镜像。这个站点至少我在暨大上是超级快的。搜完底上还有链接,让你很方便地用同样的关键词在google (scholar),Scirus, CrossRef,EBIMed等其它数据库里搜。 另外一个备选的站点是gopubmed,这个站点的亮点是整合了ontology。 最近欧洲大名鼎鼎的EBI也开始搞文献服务了,新开的Europe PubMed Central,我比较喜欢它的排序功能,可以按文章的相关性或引用数来排。除了文献之后,还可以biological patents, clinical guidelines, PhD theses and research reports。这个站点现在刚创立,我觉得一两年之后,肯定会有更多的服务提供,前途无量啊。 文献管理 读文献是人干的事,管理文献却是疯子干的事。如果你还活在手工整理文献的黑客帝国里,请赶紧吞下红色药丸。 3.个性化推荐 上网买本书,电商都会推荐给你,某本书可能你也想买。这是个性化推荐的时代,读文献也不例外,Google Scholar的新功能My updates,干的就是这个事,可以根据自己文章的内容,推荐相关的最新文献,想要用到这个功能,你需要建立google scholar profile页面。 4.订阅 RSS改变了人类的阅读,很多的期刊都提供了RSS,如果你是火星人,不知道啥是RSS,那么打开你的QQ邮箱,点一下阅读空间,那玩意实现的就是RSS订阅了。个人比较推荐google reader。 另一个值得一提的是NCBI的个性化服务My NCBI,你可以设定关键词,当pubmed上有新文献和这个关键词匹配的话,NCBI可以定期给你发邮件提醒。 5.求文献 科研大军越来越庞大,笑到最后的是各大出版社,不是读者给它送钱,就是作者给它送钱,当我们点full text时却被告知没付费么有permission,天下文章一大抄,没得抄是多么的不爽。我以前喜欢在FriendFeed上的references wanted里求下载。不过上friendfeed需要一支红杏出墙来。现在好了,国内的丁香园有个一键求助的功能,是个求文献的好去处。 6.下文献 文献下不了,很多时候是不用求的,sci-hub.org这个代理就是个下文献的好地方,比Phosphoproteome profile of human lung cancer cell line A549这篇文章的网址是http://pubs.rsc.org/en/Content/ArticleLanding/2011/MB/C0MB00055H,把URL加上sci-hub.org这个代理,变成http://pubs.rsc.org.sci-hub.org/en/Content/ArticleLanding/2011/MB/C0MB00055H,就可以下到相应的PDF文件。 欢迎补充。 PS:今天收到一颗树~