ChIPseeker是为ChIP-seq所设计的,因为当年我在做ChIP-seq,一不小心就写了这个包,然而我的知识是有限的,这名字取得太过于限定在ChIP-seq了,其实顺反组的其它类型的测序技术都是支持的,包括DNase-seq和ATAC-seq,此处为了说明我当前的知识是有限的,必须强调不仅限于此,免得出现开头说的这种尴尬。

8月份去开会,有中大肿瘤医院的PI跟我说,他们希望ChIPseeker可以支持ATAC-seq,因为我的ChIPseeker太好用了,然后他们想要用在ATAC-seq上,然而我的包真的是支持的啊。

哈佛大学的网站上有一份ATAC-seq分析指南[1],就明确地写了,ChIPseeker虽然是为ChIP-seq所设计,但对ATAC-seq一样支持得非常好,并且把ChIPseeker列为这份指南的关键步骤之一。

Continue reading

自定义注释分类

Hi Guangchuang,

Is there a way to control annotations in the the annotatePeak function? For instance I would like to ignore “downstream” and consider those peaks “intergenic”. Or for instance combine “1st exon” with “other exon” so there is one category of “exon”.

Any help would be great, thanks for doing this!

-Andrew

https://support.bioconductor.org/p/104676/

Continue reading

首先基因下游是什么?

我们知道上游很重要啊,因为可能会调控转录,但注释的时候,没有上游这个东西,为什么呢?因为转录起始位点TSS的上下游被定义为promoter,所以啊上游被包括在promoter中,也就没有上游这个category了。

Continue reading

ChIPseq-GEO数据挖掘

ChIPseeker系列文章已经介绍了很多内容,包括注释的方方面面,也包括强大的可视化功能(《CS6: ChIPseeker的可视化方法(中秋节的视觉饕餮)》)。

今天要介绍一下数据挖掘,从大量已有的数据来产生新的hypothesis。正如我在ChIPseeker的文章里写的:

There are increasing evidences shown that combinations of TFs are important for regulating gene expression (Perez-Pinera et al., 2013; Zhu et al., 2008). However, systematically identification of TF interactions by ChIP-seq is still not available. Even if a specific TF binding is essential for a particular regulation was known, we do not have prior knowledge of all its co-factors. There are no systematic strategies available to identified un-known co-factors by ChIP- seq.

并没有方法可以大规模地预测未知的共同调控因子,而数据挖掘就是要给我们这种预测的能力。

我当年在写ChIPseeker的时候,我有纠结是写篇Bioinformatics的application note呢,还是写篇长文灌水NAR,毕竟NAR影响因子高一点,最后还是发了Bioinformatics,因为我没钱,囧,Bioinformatics不要版面费啊。然后限于篇幅,ChIPseeker有大量可视化的函数,我在文章中一张图都没放!!!如果当时决定发NAR的话,这个数据挖掘这一块我就会写多点。

Continue reading

在《CS7:Genomic coordination的富集性分析(1)》说到了seq2pathway这个包,其实是两部曲,seq2gene->gene2pathway,无非是把测序片段用临近的基因注释,包括和TSS overlap的基因,宿主基因,上下游的基因等,然后拿这些基因跑ORA,做富集,仅此而已,这个包支持的物种极有限,《CS4:关于ChIPseq注释的几个问题》这一文中讲到ChIPseeker支持所有有基因组注释的物种,而《clusterProfiler for enrichment analysis》也支持所有物种(即使你自己跑的电子注释,也能支持),那么使用ChIPseeker来做基因注释,然后衔接clusterProfiler就可以支持所有物种的测序片段进行功能富集分析了。

CS3: peak注释》本身就支持几种注释,另外我写了一个seq2gene的函数,套用seq2pathway的思路,把一个基因位置上所有关联的基因全部返回来,我们可以使用它去把基因位置信息转换成基因列表,然后用于富集分析,还是熟悉的味道,还是熟悉的配方🦄

Continue reading

Author's picture

Guangchuang Yu

Bioinformatics Professor @ SMU

Bioinformatics Professor

Guangzhou