龙空技术网

ATAC-seq(2) -- 数据下载及质控

ZhangYiHui 106

前言:

现在大家对“chipseq数据下载”可能比较关切,同学们都想要知道一些“chipseq数据下载”的相关资讯。那么小编也在网上收集了一些对于“chipseq数据下载””的相关资讯,希望大家能喜欢,看官们快快来学习一下吧!

处理流程

1c3ee2404c41ae0811708d16ecebbd23.png

分析ATAC-Seq从本质上来看和分析ChIP-Seq没啥区别,都是peak-calling,也就是从比对得到BAM文件中找出reads覆盖区,也就是那个峰。那么问题集中在如何找到peak。

假设目前已经找到了peak,这是不是意味着我们找到转录因子了?不好意思,这不存在的,因为ATAC-Seq只是找到了全基因组范围的开放区域,而这些开放区域的产生未必是转录因子引起,所以需要一些预测性工作。

数据来源

image.png

数据的GEO号:GSE66581

由于原文数据太多,这里选取了四组数据来进行练习

2-cell-1 SRR29270152-cell-2 SRR29270162-cell-5 SRR35455802-cell-4 SRR2927018
1.从SRA下载数据并进行数据解压
nohup prefetch SRR2927015 &nohup prefetch SRR2927016 &nohup prefetch SRR3545580 &nohup prefetch SRR2927018 &#重命名mv SRR2927015.sra 2-cell-1.sramv SRR2927016.sra 2-cell-2.sramv SRR3545580.sra 2-cell-5.sramv SRR2927018.sra 2-cell-4.sra#将sra文件转换成fastq文件for i in  *sradoecho $ifastq-dump --split-3 --gzip $idone#得到的原始fq数据如下:-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 24 23:10 2-cell-1_1.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 24 23:10 2-cell-1_2.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 3.4G Aug 24 23:31 2-cell-2_1.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 3.7G Aug 24 23:31 2-cell-2_2.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 24 22:46 2-cell-4_1.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 24 22:46 2-cell-4_2.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 4.4G Aug 24 23:52 2-cell-5_1.fastq.gz-rw-rw-r-- 1 jmzeng jmzeng 4.9G Aug 24 23:52 2-cell-5_2.fastq.gz
2.原始文件质控

质量控制前后都需要可视化,肯定是fastqc+multiqc

缠绕核小体 DNA 约 147bp 与相邻核小体连接的 DNA 约 20-90bp. 加上测序接头等约 135bp 长度会达到 200bp 左右,因此最后文库片段长度可能是 200-1000bp 左右,并且主要的部分在 600bp 一下,但 ATACseq 建库片段分布可能因为样本类型、细胞数量、处理过程等有关,也许文库片段分布有所差异。

1a48eab07b3c8f3d79ab51e08a090e53.png

原始 fastq 用 fastqc 生成质控报告

mkdir fastqc#创造一个文件夹存放质控结果fastqc --outdir fastqc  --threads 16 *.fastq.gzcd fastqcmultiqc *zip#将质控结果整合

image.png

然后用 trim_galore 进行过滤

mkdir  ../trim_galorels *.fastq.gz | while read id;dosample=${id%_*}trim_galore -q 25 --phred33 --length 35 -e 0.1 --stringency 4 --paired -o ../trim_galore $sample_1.fastq.gz $sample_2.fastq.gzdone#得到过滤后的fq文件如下:-rw-rw-r-- 1 jmzeng jmzeng 2.4G Aug 25 09:35 2-cell-1_1_val_1.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 25 09:35 2-cell-1_2_val_2.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 3.1G Aug 25 10:10 2-cell-2_1_val_1.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 3.3G Aug 25 10:10 2-cell-2_2_val_2.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 1.1G Aug 25 08:52 2-cell-4_1_val_1.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 1.1G Aug 25 08:52 2-cell-4_2_val_2.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 3.7G Aug 25 10:27 2-cell-5_1_val_1.fq.gz-rw-rw-r-- 1 jmzeng jmzeng 3.9G Aug 25 10:27 2-cell-5_2_val_2.fq.gz

过滤后再质控

mkdir fastqc#创造一个文件夹存放质控结果fastqc --outdir fastqc  --threads 16 *.fq.gzcd fastqcmultiqc *zip#将质控结果整合

标签: #chipseq数据下载