从2007年写了第一篇文章之后,我发现管理文献真不是人干的,一直以来使用Zotero来管理文献,自从有了dropbox之后,就想把文献库放在dropbox上,一来有个云备份,不怕硬盘坏,二来嘛,实验室电脑和个人电脑可以实时同步化,无奈dropbox空间太小,而我的zotero早已超过10G,因为电子书也放在里面,只能做罢。

度娘出手还是很大方的,我现在的网盘已经有3T,包括之前在推广阶段用1元买的1T。


Continue reading

boxplot

生物坑很多人画图只会直方图,统计只会T检验,在暨大见过太多的学生连T检验都不会,分不清SEM和SD的差别,也不清楚T检验那几个简单参数的含义。我写统计笔记也是因为不想重复性地跟学生讲解T检验。

Barplot和T test一样普遍而流行,barplot适合于表示计数数据和比例,显示比例也可以用pie plot,但直方图比饼图要好,因为人类的眼睛适合于比较高度,而不是弧度。

多半时候生物学数据并非简单的计数数据,对于测量数据,在展示数据分布时,很多人会使用他们熟悉的barplot,用高度来表示mean,然后再加上errorbar,这样展示数据,信息量是非常低的,使用boxplot能够提供更多的数据分布信息,能更好地展现数据,但可能很多人只会在excel里画barplot,Nature Methods 2013年的文章中有100个barplot图,而只有20个boxplot图,从这里就可以看出来,用boxplot的人远远没有barplot多,于是NPG怒了,写了两篇专栏文章Points of View: Bar charts and box plotsPoints of Significance: Visualizing samples with box plots并且发表了一篇BoxPlotR: a web tool for generation of box plots方便大家画boxplot,如此简单的web tool能够发Nature Methods,实在是让人羡慕妒忌恨啊。
Continue reading

从2011年1月我就在实验室的QQ群里发群邮件说IPI关门,时至今日,已经关门3年了,主页上一直停留在关门大吉的那一刻。 我不断在邮件里, lab meeting上强调要换成uniprot来搜库,然而时至今日,依然还是有很多的人在使用IPI,想想真可怕,实验室真是100年不更新一下数据啊。 另外一个我非常讨厌的就是GI号,它压根就不是正儿八经的ID号,但他们从来就不愿意尝试改变。 比如上面这个蛋白质序列的FASTA文件,注释行有很多信息,比如: >gi|16128001|ref|NP_414548.1| putative transporter [Escherichia coli str. K-12 substr. MG1655] 显然搜库时可以使用NP_414548.1做为ID,这个问题我说过N多遍,但他们一定会用他们惯用的gi|16128001来做ID。 问题是很明显的: GI number (sometimes written in lower case, “gi”) is simply a series of digits that are assigned consecutively to each sequence record processed by NCBI. The GI number bears no resemblance to the Accession number of the sequence record. The GI number has been used for many years by NCBI to track sequence histories in GenBank and the other sequence databases it maintains.
Continue reading

Install Emacs on Mac

package manager

之前一直用NetBSDpkgsrc做为各种Unix-like系统的包管理系统,pkgsrc在自己内部解决依赖关系,这点对于生产环境来说,是很好的一个优点,我通常会在服务器里装一个pkgsrc,在用户目录下,维护一套UNIX软件。但是用在自己的机器上,内部解决软件依赖,就是个缺点,浪费编译时间和硬盘空间。

Mac上可用的包管理系统很多,Fink移植于Debian的apt,Gentoo的portage也支持OS X。OS X是基于BSD的系统,BSD有自己的一套包管理系统,如FreeBSD的ports和NetBSDpkgsrc,MacPorts可以看作是这一系列中的一个,不过它并不是OS X原生的,它只是OpenDarwin的子项目,所以和pkgsrc一个样,也是内部解决依赖,真正为OS X设计的原生包管理系统非Homebrew莫属,它会尽量依赖系统里已有的软件。 自从用了Homebrew之后,再也不用为系统里有两套perl和python而crazy了,之前通过pkgsrc装的软件全删掉,改Homebrew来安装和管理。 如果软件没有被pkgsrc收录,而想通过pkgsrc来管理的话,那就得自己写makefile,而homebrew,则可以自动帮你生成Formula,比如我要安装blat
Continue reading

看似寻常最奇崛,成如容易却艰辛。在暨大工作了几年,发几篇小文章,觉得要找个地方读PhD,是件手到擒来的事,结果却花了整整一年的时间,事实证明像我这样的科研屌丝男,举步唯艰啊。 去年7月份就开始在计划这个事情,我几乎想都没想就联系了计算生物所的JD Han,紧接着就是面试,第一次尝试用英文去讲slides,从早上10点讲到中午12点。感觉还好吧,因为有听到Han说impressive,而她的学生又说经常看我blog。看上去还是蛮顺利的,然而最终reject了我,而且没有给我任何原因。

我去上海是非常低姿态的,说要面试,我就飞过去,当时想要是面试OK了,可能会让我留下来先了解一下正在进行的project,所以没有听老婆的话买返程票,结果从上海回广州,就变成了人在囧途,买不到火车票,就去南昌转车,结果遇到两趟车都是慢车,无空调,还无座。这个事情教会了我,不能太低姿态。

我一直在想为什么会去上海,为什么会联系Han,或许是心理学上所谓的契可尼效应,俗称偷不如偷不着,当年考上生没中,心中依然有执念?我自认为早已释然,but maybe..,至于Han,我在研一的时候,去北大听过她的讲座,被系统生物学这个概念忽悠了,可能因此内心抱有幻想。
Continue reading

TIFF (Tagged Image File Format)拥有更宽的线性动态范围,所以在专业的图片处理上,一直是一个通用的文件格式。 最近一篇发表在Metallomics的文章,我本来做的图片都是PDF格式,矢量图最好了,文件特别小,还可以任意放大。不过杂志社要求600DPI的TIFF或EPS。 我第一反应是拒绝使用TIFF,600DPI的TIFF文件肯定非常大,EPS也是矢量图,我用R重新把图画一遍,存为EPS就OK了。画图的过程,我发现对EPS的支持不太好,老报些某字体不存在的错误。这当然不是什么大不了的事,自己指定字体就好了。问题在于有张图是拼的,我只能借助于软件转换,我用Inkscape处理,导出EPS,出来的图我发现有些细节并不太好。 无奈之下还是用TIFF吧,Fig1和3都是R画的,直接指定分辨率和压缩算法,存为TIFF文件。Fig1是3000x3000pixel 600dpi的图,只有320k,Fig3是4200x4200pixel的图,也是600dpi,只有558k,用R产生TIFF还是非常靠谱的。 关键是Fig2,这一张拼的图,存成PDF矢量图,需要用ImageMagick转换成600DPI的TIFF图片,ImageMagick需要安装Xcode才能在Mac下编译成功。 Yus-Mac-Pro:others ygc$ convert -density 600 fig2.pdf fig2.tif Yus-Mac-Pro:others ygc$ identify -verbose fig2.tif Image: fig2.tif Format: TIFF (Tagged Image File Format) Class: DirectClass Geometry: 6000x4500+0+0 Resolution: 600x600 Print size: 10x7.5 Units: Undefined Type: PaletteMatte Base type: TrueColor Endianess: MSB … Yus-Mac-Pro:others ygc$ convert -density 600 -compress lzw fig2.pdf fig2_compress.tif Yus-Mac-Pro:others ygc$ ls -l fig2*.tif -rw-r–r– 1 ygc admin 216036263 May 23 17:53 fig2.
Continue reading

TALEN基因编辑

分子生物学的基础和兴起离不开各种酶的发现和抗体的制备。没有抗体,蛋白质就玩不转,没有限制性内切酶和连接酶,就没有基因工程,如果没有耐高温酶的发现,连PCR都是件痛苦的事情,写到这里,我突然觉得做细菌也是蛮好的,因为比较有可能发现一些功能比较奇特的蛋白,而这些蛋白,一经改造,可能就是技术上的革新。 TALE(transcription activator-like effector)也不例外,最初在植物致病菌黄单胞菌(_Xanthomonas_)中被发现,在致病过程中,能够特异性地结合和调控植物基因。 TALE的结构中间(红色部分)是重复序列,介导DNA识别,每一个重复片段为33-35个氨基酸,其中12和13位置两个氨基酸决定碱基偏好性,这两个相邻的氨基酸被称之为重复可变双残基(repeat variable di-residue, RVD),RVD所编码的靶标碱基由上图b所示,基本上你看一段TALE的重复序列,就可以预测到它将结合到什么样的DNA序列上,或者你看一段DNA序列,可以很容易地设计结合它的TALE重复序列。 N端通常是288个残基,其中Δ152做为截断点,去掉前面用于进入植物细胞的功能,而保留TALE蛋白的其它功能。C端通常是278个残基。 中间重复片段的特性使得TALE很容易被改造,应用于各种定点靶向的场景。 Activator 2011年发表在NBT上的文章《A TALE nuclease architecture for efficient genome editing》将TALE改造成促进特定基因表达。将天然TALE进行PCR扩增,去掉前面152个残基,重复序列改造为结合NTF3的启动子邻近区域(proximal promoter),C端连上VP16(转录激活结构域),结果诱导超过20倍的表达。NTF3基因编码一个分泌性的生长因子,对神经退行性疾病有一个的治疗功效。作者把C端截断,保留95个残基再接上VP16,同样也是mRNA超过20倍的表达。 Nuclease 位点特异性的核酸酶是基因组工程的有力工具,产生断裂的双链DNA(double strand breaks, DSBs),可以进行同源重组、靶向插入、删除。锌指蛋白(zinc finger protein)连接FokI的水解结构域,构成了锌指核酶(zinc finger nuclease, ZFN)被用来进行基因组编辑,但是ZFN的特异性和效率较差,可重复性不好。 TALE的单碱基识别能力,显然在特异性上是无可比拟的,有了TALE,TALEN(TALE-nuclease,TALE接上核酸酶)技术应运而生,特异性好,效率高,而且可以应用于各种物种。TALEN通常以同二聚体(homodimer)或异二聚体(hterodimer)对DNA从两端进行切割,两端切割点的距离(spacer length)可以是10-30bp之间,取决于linker的长度,即连接重复结构域和切割结构域的长度,长的linker,需要长的spacer,反之亦然。 两端切割后,产生DSB,就会引起系统对其进行修复,Miller等使用TALEN对NTF3基因进行切割,产生DSB,随后进行非同源末端连接(non-homologous end joining, NHEJ)修复,NHEJ在没有同源序列做为模版的情况下进行修复,这是一个不精确的修复途径,结果产生了3-30bp的删除。 NHEJ是容易出错也不好控制的,可喜的是还存在一条精确可控的途径,同源依赖修复(homology dependent repair, HDR),在有供体ssDNA存在的情况下,通过HDR途径,可以对基因进行编辑,插入和缺失处理。 于是牛B的事情就产生了,2012年Nature的文章报道在斑马鱼活体组织里使用TALEN技术,引入了定制的EcoRV位点和修改的loxP序列。 Reference 1. Miller, Jeffrey C., Siyuan Tan, Guijuan Qiao, Kyle A. Barlow, Jianbin Wang, Danny F. Xia, Xiangdong Meng, et al. “A TALE Nuclease Architecture for Efficient Genome Editing.
Continue reading

Author's picture

Guangchuang Yu

a senior-in-age-but-not-senior-in-knowledge bioinformatician

PhD student

Hong Kong