GE公司codelink芯片(这个破产品已经停产了)上的探针ID,需要转成别的ID,看了一些在线的转换ID工具,都不支持,探针ID基本上都只支持affy的。
想起了bioconductor里的biomaRt,这个包可以检索BioMart数据库,这个数据库里有N多种ID。试了一下,果然没问题。
#加载biomaRt包
library(biomaRt)
#选取数据库
ensembl = useMart("ensembl", dataset = "hsapiens_gene_ensembl")
#获取可供检索的attribute
attributes=listAttributes(mart=ensembl)
#看一下attributes里是否有codelink,得到以下的结果。
attributes[grep("codelink",attributes[,1]), ]
name description
21 codelink Codelink ID
#再搜一下其它我想要的ID
#读进含有codelink ID的文件。
mrna_id <- read.table("mrna_id.txt")
#进行ID映射。
idmap <- getBM(attributes=c("codelink","refseq_dna","external_gene_id",
"embl","hgnc_id","hgnc_symbol"),
filters ="codelink", values=mrna_id[,1],
mart=ensembl,output="list")
第一次写软件包,计算基因和GO的语义相似性。
实现Wang的方法,基于GO的图结构。 以及四种基于信息含量的计算方法(Resnik, Jiang, Lin, Rel)。
可以从Bioconductor下载到。 http://bioconductor.org/packages/release/bioc/html/GOSemSim.html http://bioconductor.org/packages/devel/bioc/html/GOSemSim.html
支持human, rat, mouse, fly, yeast, zebrafish,worm, E coli, arabidopsis等物种。