Emacs is a great front-end for most of the command line tools. Although R-Studio is pretty good, I think Emacs/ESS is better. I’ve always used Emacs/ESS to run R, since 2007 on Ubuntu, Windows, and my MacBook Pro. It gives me the same experiences across all platforms. I love the way Emacs formatting source codes, and literate programming with Roxygen supported. Unfortunately, ESS does not suport displaying plots in Emacs buffer, which has been supported by imaxima.

Continue reading

Install Emacs on Mac

package manager

之前一直用NetBSDpkgsrc做为各种Unix-like系统的包管理系统,pkgsrc在自己内部解决依赖关系,这点对于生产环境来说,是很好的一个优点,我通常会在服务器里装一个pkgsrc,在用户目录下,维护一套UNIX软件。但是用在自己的机器上,内部解决软件依赖,就是个缺点,浪费编译时间和硬盘空间。

Mac上可用的包管理系统很多,Fink移植于Debian的apt,Gentoo的portage也支持OS X。OS X是基于BSD的系统,BSD有自己的一套包管理系统,如FreeBSD的ports和NetBSDpkgsrc,MacPorts可以看作是这一系列中的一个,不过它并不是OS X原生的,它只是OpenDarwin的子项目,所以和pkgsrc一个样,也是内部解决依赖,真正为OS X设计的原生包管理系统非Homebrew莫属,它会尽量依赖系统里已有的软件。

Continue reading

看似寻常最奇崛,成如容易却艰辛。在暨大工作了几年,发几篇小文章,觉得要找个地方读PhD,是件手到擒来的事,结果却花了整整一年的时间,事实证明像我这样的科研屌丝男,举步唯艰啊。 去年7月份就开始在计划这个事情,我几乎想都没想就联系了计算生物所的JD Han,紧接着就是面试,第一次尝试用英文去讲slides,从早上10点讲到中午12点。感觉还好吧,因为有听到Han说impressive,而她的学生又说经常看我blog。看上去还是蛮顺利的,然而最终reject了我,而且没有给我任何原因。

我去上海是非常低姿态的,说要面试,我就飞过去,当时想要是面试OK了,可能会让我留下来先了解一下正在进行的project,所以没有听老婆的话买返程票,结果从上海回广州,就变成了人在囧途,买不到火车票,就去南昌转车,结果遇到两趟车都是慢车,无空调,还无座。这个事情教会了我,不能太低姿态。

我一直在想为什么会去上海,为什么会联系Han,或许是心理学上所谓的契可尼效应,俗称偷不如偷不着,当年考上生没中,心中依然有执念?我自认为早已释然,but maybe..,至于Han,我在研一的时候,去北大听过她的讲座,被系统生物学这个概念忽悠了,可能因此内心抱有幻想。

Continue reading

TIFF (Tagged Image File Format)拥有更宽的线性动态范围,所以在专业的图片处理上,一直是一个通用的文件格式。 最近一篇发表在Metallomics的文章,我本来做的图片都是PDF格式,矢量图最好了,文件特别小,还可以任意放大。不过杂志社要求600DPI的TIFF或EPS。 我第一反应是拒绝使用TIFF,600DPI的TIFF文件肯定非常大,EPS也是矢量图,我用R重新把图画一遍,存为EPS就OK了。画图的过程,我发现对EPS的支持不太好,老报些某字体不存在的错误。这当然不是什么大不了的事,自己指定字体就好了。问题在于有张图是拼的,我只能借助于软件转换,我用Inkscape处理,导出EPS,出来的图我发现有些细节并不太好。 无奈之下还是用TIFF吧,Fig1和3都是R画的,直接指定分辨率和压缩算法,存为TIFF文件。Fig1是3000x3000pixel 600dpi的图,只有320k,Fig3是4200x4200pixel的图,也是600dpi,只有558k,用R产生TIFF还是非常靠谱的。 关键是Fig2,这一张拼的图,存成PDF矢量图,需要用ImageMagick转换成600DPI的TIFF图片,ImageMagick需要安装Xcode才能在Mac下编译成功。 Yus-Mac-Pro:others ygc$ convert -density 600 fig2.pdf fig2.tif Yus-Mac-Pro:others ygc$ identify -verbose fig2.tif Image: fig2.tif Format: TIFF (Tagged Image File Format) Class: DirectClass Geometry: 6000x4500+0+0 Resolution: 600x600 Print size: 10x7.5 Units: Undefined Type: PaletteMatte Base type: TrueColor Endianess: MSB ... Yus-Mac-Pro:others ygc$ convert -density 600 -compress lzw fig2.pdf fig2_compress.tif Yus-Mac-Pro:others ygc$ ls -l fig2*.tif -rw-r--r-- 1 ygc admin 216036263 May 23 17:53 fig2.

Continue reading

TALEN基因编辑

分子生物学的基础和兴起离不开各种酶的发现和抗体的制备。没有抗体,蛋白质就玩不转,没有限制性内切酶和连接酶,就没有基因工程,如果没有耐高温酶的发现,连PCR都是件痛苦的事情,写到这里,我突然觉得做细菌也是蛮好的,因为比较有可能发现一些功能比较奇特的蛋白,而这些蛋白,一经改造,可能就是技术上的革新。 TALE(transcription activator-like effector)也不例外,最初在植物致病菌黄单胞菌(Xanthomonas)中被发现,在致病过程中,能够特异性地结合和调控植物基因。 TALE的结构中间(红色部分)是重复序列,介导DNA识别,每一个重复片段为33-35个氨基酸,其中12和13位置两个氨基酸决定碱基偏好性,这两个相邻的氨基酸被称之为重复可变双残基(repeat variable di-residue, RVD),RVD所编码的靶标碱基由上图b所示,基本上你看一段TALE的重复序列,就可以预测到它将结合到什么样的DNA序列上,或者你看一段DNA序列,可以很容易地设计结合它的TALE重复序列。 N端通常是288个残基,其中Δ152做为截断点,去掉前面用于进入植物细胞的功能,而保留TALE蛋白的其它功能。C端通常是278个残基。 中间重复片段的特性使得TALE很容易被改造,应用于各种定点靶向的场景。 Activator 2011年发表在NBT上的文章《A TALE nuclease architecture for efficient genome editing》将TALE改造成促进特定基因表达。将天然TALE进行PCR扩增,去掉前面152个残基,重复序列改造为结合NTF3的启动子邻近区域(proximal promoter),C端连上VP16(转录激活结构域),结果诱导超过20倍的表达。NTF3基因编码一个分泌性的生长因子,对神经退行性疾病有一个的治疗功效。作者把C端截断,保留95个残基再接上VP16,同样也是mRNA超过20倍的表达。 Nuclease 位点特异性的核酸酶是基因组工程的有力工具,产生断裂的双链DNA(double strand breaks, DSBs),可以进行同源重组、靶向插入、删除。锌指蛋白(zinc finger protein)连接FokI的水解结构域,构成了锌指核酶(zinc finger nuclease, ZFN)被用来进行基因组编辑,但是ZFN的特异性和效率较差,可重复性不好。 TALE的单碱基识别能力,显然在特异性上是无可比拟的,有了TALE,TALEN(TALE-nuclease,TALE接上核酸酶)技术应运而生,特异性好,效率高,而且可以应用于各种物种。TALEN通常以同二聚体(homodimer)或异二聚体(hterodimer)对DNA从两端进行切割,两端切割点的距离(spacer length)可以是10-30bp之间,取决于linker的长度,即连接重复结构域和切割结构域的长度,长的linker,需要长的spacer,反之亦然。 两端切割后,产生DSB,就会引起系统对其进行修复,Miller等使用TALEN对NTF3基因进行切割,产生DSB,随后进行非同源末端连接(non-homologous end joining, NHEJ)修复,NHEJ在没有同源序列做为模版的情况下进行修复,这是一个不精确的修复途径,结果产生了3-30bp的删除。 NHEJ是容易出错也不好控制的,可喜的是还存在一条精确可控的途径,同源依赖修复(homology dependent repair, HDR),在有供体ssDNA存在的情况下,通过HDR途径,可以对基因进行编辑,插入和缺失处理。 于是牛B的事情就产生了,2012年Nature的文章报道在斑马鱼活体组织里使用TALEN技术,引入了定制的EcoRV位点和修改的loxP序列。 Reference 1. Miller, Jeffrey C., Siyuan Tan, Guijuan Qiao, Kyle A. Barlow, Jianbin Wang, Danny F. Xia, Xiangdong Meng, et al. “A TALE Nuclease Architecture for Efficient Genome Editing.” Nature Biotechnology 29, no.

Continue reading

2012豆瓣记录

又一年过去了,看书的数目总算是追上看碟了。 5本R方面的书,两本是入门书,快速翻阅过,Introduction to Scientific Programming and Simulation Using R我觉得和Intermediate Perl属于同一类,算是进阶阶段的书,有编程基础的话,这种才是最好的入门书。R Inferno讲了R的各种陷阱,ggplot2是关于画图,比如上面的拆线图,就是用ggplot画的,从一开始用ggplot2就开始翻看这本书,N长时间过去了,也没看完,直到今年要出中文版,我也帮忙较对了一下,才把它看完。

Continue reading

如何获取文献

这个题目又标题党了,不过是share一下一些地球人都应该知道的小tips而已。 据说是电信出口出了问题,学校里这两天大家都在叫pubmed上不去,我反正是上得去,就是慢点。大家好像少了pubmed就无法干活似的,不过也是,正所谓:熟读唐诗三百首,不会作诗也会吟。 1.有备无患 pubmed上不去,完全没影响,因为有hubmed,hubmed主页上写着:An alternative interface to the PubMed medical literature database,所以完全可以把它当作是pubmed的镜像。这个站点至少我在暨大上是超级快的。搜完底上还有链接,让你很方便地用同样的关键词在google (scholar),Scirus, CrossRef,EBIMed等其它数据库里搜。 另外一个备选的站点是gopubmed,这个站点的亮点是整合了ontology。 最近欧洲大名鼎鼎的EBI也开始搞文献服务了,新开的Europe PubMed Central,我比较喜欢它的排序功能,可以按文章的相关性或引用数来排。除了文献之后,还可以biological patents, clinical guidelines, PhD theses and research reports。这个站点现在刚创立,我觉得一两年之后,肯定会有更多的服务提供,前途无量啊。 文献管理 读文献是人干的事,管理文献却是疯子干的事。如果你还活在手工整理文献的黑客帝国里,请赶紧吞下红色药丸。 3.个性化推荐 上网买本书,电商都会推荐给你,某本书可能你也想买。这是个性化推荐的时代,读文献也不例外,Google Scholar的新功能My updates,干的就是这个事,可以根据自己文章的内容,推荐相关的最新文献,想要用到这个功能,你需要建立google scholar profile页面。 4.订阅 RSS改变了人类的阅读,很多的期刊都提供了RSS,如果你是火星人,不知道啥是RSS,那么打开你的QQ邮箱,点一下阅读空间,那玩意实现的就是RSS订阅了。个人比较推荐google reader。 另一个值得一提的是NCBI的个性化服务My NCBI,你可以设定关键词,当pubmed上有新文献和这个关键词匹配的话,NCBI可以定期给你发邮件提醒。 5.求文献 科研大军越来越庞大,笑到最后的是各大出版社,不是读者给它送钱,就是作者给它送钱,当我们点full text时却被告知没付费么有permission,天下文章一大抄,没得抄是多么的不爽。我以前喜欢在FriendFeed上的references wanted里求下载。不过上friendfeed需要一支红杏出墙来。现在好了,国内的丁香园有个一键求助的功能,是个求文献的好去处。 6.下文献 文献下不了,很多时候是不用求的,sci-hub.org这个代理就是个下文献的好地方,比Phosphoproteome profile of human lung cancer cell line A549这篇文章的网址是http://pubs.rsc.org/en/Content/ArticleLanding/2011/MB/C0MB00055H,把URL加上sci-hub.org这个代理,变成http://pubs.rsc.org.sci-hub.org/en/Content/ArticleLanding/2011/MB/C0MB00055H,就可以下到相应的PDF文件。 欢迎补充。 PS:今天收到一颗树~

Continue reading

Author's picture

Guangchuang Yu

Bioinformatics Professor @ SMU

Bioinformatics Professor

Guangzhou