GE公司codelink芯片(这个破产品已经停产了)上的探针ID,需要转成别的ID,看了一些在线的转换ID工具,都不支持,探针ID基本上都只支持affy的。

想起了bioconductor里的biomaRt,这个包可以检索BioMart数据库,这个数据库里有N多种ID。试了一下,果然没问题。

#加载biomaRt包
library(biomaRt)

#选取数据库
ensembl = useMart("ensembl", dataset = "hsapiens_gene_ensembl")

#获取可供检索的attribute
attributes=listAttributes(mart=ensembl)

#看一下attributes里是否有codelink,得到以下的结果。
attributes[grep("codelink",attributes[,1]), ]

name description
21 codelink Codelink ID
#再搜一下其它我想要的ID

#读进含有codelink ID的文件。
mrna_id <- read.table("mrna_id.txt")

#进行ID映射。
idmap <- getBM(attributes=c("codelink","refseq_dna","external_gene_id",
                            "embl","hgnc_id","hgnc_symbol"), 
               filters ="codelink", values=mrna_id[,1],
               mart=ensembl,output="list")

Continue reading

用PITA算法做靶标预测的时候,要用到ViennaRNA包做结构的折叠,这个包是被修改过的,原来的包在我机子上是可以装的。但是这个修改过的包编译不通过。很奇怪的错误,不知道怎么改。

好在它有两个版本,64位和32位的。我弄到大型机上去编译32位的,也是出错,不过是命名空间的问题,我改两个头文件就可以通过了。最近又要算。那个大型机最近被搬走了。只能本机上做。

Continue reading

用了好多年linux,现在用windows越来越少了,但是还是得用。没办法,上taobao买个东西,上网银都得用ie,有时候还得用office等其它一些软件。

实验室里有台机子是做文件服务的,装的是windows 2003 server。之前使用rdesktop远程桌面,最近发现配合seamlessrdp可以让rdesktop实现更好的效果,运行windows程序,就像linux中原生程序一样。。

> [下载
> seamlessrdp.zip](http://www.cendio.se/files/thinlinc/seamlessrdp/seamlessrdp.zip)
> 解压丢在C盘。

在linux下运行这样的指令

> rdesktop -A -s "c:\\seamlessrdp/seamlessrdpshell.exe C:\\Program
> Files\\Internet Explorer\\iexplore.exe" ip:3389 -u administrator -p
> password

就可以在linux下运行服务器端的ie了。windows下所有程序都没问题。

Continue reading

国家人口统计男人比女人多了3700万,在大学校园里更是流传着“我很丑,可是我很抢手”(女生版)、“我很帅,可是我很无奈”(男生版)。

鉴于大龄猥琐男越来越盛行,以及小平同志说“让一部分人先恋起来嘛” 今日从科学的角度,让大家明白如何告别单身。 授人与鱼不如授人与渔。即使没能让你奔小康,起码也解决温饱~~~

告别单身的不二法则,三个字,“厚脸皮”,详见下面分析

如果一个男人追一个女人,成功的概率只有0.2, 那么连续追6个,至少有一个成功的概率,高达0.74

> 1-0.8^6
[1] 0.737856

如果连续追7个的话,至少一个成功的概率将达到0.79

> 1-0.8^7
[1] 0.7902848

如果你不是特别差,成功的概率假如是0.3,那么连续追几个的成功概率将更高。。

> 1-0.7^6
[1] 0.882351
> 1-0.7^7
[1] 0.9176457

Continue reading

推荐一个小软件,gperiodic,功能很简单,就是个元素周期表而已,可以查到各个元素的详细信息。

当年初中的时候,这个表也是背过的。。那时候用方言背的,现在用普通话讲,总觉得有点别扭。。

Continue reading

在实际应用中,尤其是sequence数据,应该尽可能避免把整个文件读入内存,文件有可能几个G甚至更大,可能引起内存崩溃。应该放在数据库里,建索引以检索数据。Bioperl有一个module, Bio::DB::Fasta可以实现这个,这个模块在没有安装bioperl的情况下也可以单独安装使用。

Continue reading

Author's picture

Guangchuang Yu

Bioinformatics Professor @ SMU

Bioinformatics Professor

Guangzhou