MACS 2 Call Peakパラメータ詳細学習

5896 ワード

シーケンシング技術の進歩に伴い、染色質免疫沈殿技術は全ゲノムタンパク質−DNA相互作用の研究に広く用いられている.macsは新しいモデルに基づいて転写因子結合部位を良く識別できる.macsは、ChIP−Seqデータに直接適用してもよいし、ChIP−Seqデータをcontrolと組み合わせて特異性を向上させてもよい.
インストール

pip install MACS2

MACS 2機能:

macs 2 callpeakはmacs 2の最も主要な機能であり、bamファイルを利用してchip peakを探すことができる.

macs 2 callpeak使用:

# regular peak calling：
macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01

# broad peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1

パラメータの説明

-T/–TREATMENT FILENAME:treatグループ

-C/–CONTROL:controlまたはmock(IgGなどの非特異的抗体)群

control:input DNA、免疫共沈処理を経ていない;

mock:1)未使用抗体富化タンパク質結合DNA断片2)IgG

などの非特異的抗体

-N/–NAME:MACS 2出力ファイルに「NAME_peaks.xls’, ‘NAME_negative_peaks.xls’, ‘NAME_peaks.bed’ , ‘NAME_summits.bed’, ‘NAME_model.r’

–OUTDIR:MACS 2結果ファイル保存パス

-F/–FORMAT FORMAT:MACS 2読み込みファイルフォーマット、「ELAND」、「BED」、「ELANDULTi」、「ELAndeXPORT」、「ELANDULTIOT」(for pair-end tags)、「SAM」、「BAM」、「BOWTIE」、「BAMPE」or「BEDPE」;デフォルトでは、入力ファイルのフォーマットが自動的に検出されるので、異なるフォーマットのファイルを使用できます.

-G/–GSIZE:有効ゲノムサイズ(対ゲノムサイズよりも大きい);ゲノムの中に大量の繰り返し配列シーケンシングが測定されず、実際に比較できるゲノムの大きさは元のゲノムの90%または70%にすぎない.人間のデフォルト値は–2.7 e 9(UCSC human hg 18 assembly)

hs:
2.7e9
mm:
1.87e9
ce:
9e7
dm:
1.2e8

-S/–TSIZE:シーケンシング読長;設定しない場合、MACSは入力の最初の10シーケンスで自動的に検出する.

–BW:湿式実験では、音波がゲノムの断片長を遮断し、モデルを構築するために使用される.--Q/–QVALUE:qvalue(minimum FDR)call significant regionsのしきい値を設定します.デフォルトでは、0.01はbroad marks(タンパク質修飾chipseq)に対して0.05を用いることができる.Q-values are calculated from p-values using Benjamini-Hochberg procedure.

-P/–PVALUE:p値を設定するとqvalueは機能しません.

-M/–MFOLD:モデル構築時、enrichment regions選択基準(MFLD range of high-confidence enrichment ratio against background to build model);DEFAULT:5,50 means using all regions not too low(>5)and not too high(<50)to build paired-peaks model.MACSが100以上のregionsを見つけてモデルを構築できない場合、設定-fix-bimodalの場合、MACSはパラメータ-extsizeを呼び出します.

–NOLAMBDA:peak候補領域のばらつきを考慮せずに背景を使用λlocalとしてλ.

–SLOCAL, –LLOCAL:2つの水平検出peak領域を設定し、最大を計算するλlocalとしてλ.デフォルトでは、MACSは1000 bpをsmall local region(-slocal)、10000 bpsをlarge local region(-llocal)としてオープン染色体領域の偏差を計算します.領域が小さすぎると、尖ったピークが隣の顕著なピークを隠す.

–NOMODEL:MACSはモデルを構築しません.

–EXTSIZE:設定–nomodel、MACSは5’->3’方向にreadsを延長します.転写因子結合領域長200 bpでMACSモデリングもしたくない場合は、このパラメータを200.

に設定できます.

–SHIFT:–shiftsizeは–extsizeに置き換えられました.–nomodel設定後、MACSはこのパラメータでreads 5’を切り取り、–extsizeを利用してreads 3’端を延長します.負数にすると逆方向(3’->5’);ChIP-Seq推奨設定は0です.リッチカット部位を検出する場合、例えばDNAseI-Seq datasets、このパラメータは-1*half of EXTSIZE(EXTSIZEは200、このパラメータは-100)に設定すべきである.2つの例:DNAse-Seq、スムーズウィンドウを200 bpsに設定したい場合、パラメータ'-nomodel-shift-100-extsize 200'を使用する.nucleosome-seqは、核小体の半分の大きさを用いてウェーブレット分析を行い、核小体の中心のピークを得る.巻き取り核小体DNA長が147 bpsの場合、パラメータ'-nomodel-shift 37-extsize 73'を使用することができる.

–KEEP-DUP:pvalue(1 e-5)をデフォルトで使用して、各位置maximum tagsを二項分布に基づいて計算します.all’は、すべてのtagsを保持することを表し、整数が設定されている場合、同じ位置にtagsを保持する最大数である.デフォルト値は1で、同じ位置に1 tagが保持されます.

–BROAD:このパラメータは、低いしきい値(-broad-cutoff)に基づいてpeaK付近のリッチ領域をbroad regionに分類してBED 12フォーマットファイルに出力します.broad regionの最大長はMACSで計算したdの4倍である.DEFAULT: False

–BROAD-CUTOFF:broad regionしきい値;pvalue設定はpvalueであり、未設定はqvalueである.DEFAULT: 0.1.

–TO-LARGE:このパラメータ設定後、小さなサンプルを大きなサンプルと同じ深さに線形に拡大します.既定では、大きなサンプルから小さなサンプルの深さに縮小します.注意:小さなサンプルを拡大すると、より多くの偽陽性が発生する可能性があります.

–DOWN-SAMPLE:このパラメータを設定し、ランダムサンプリング法を使用して大きなサンプルを縮小します.ランダムサンプリングは、記憶が不安定で繰り返し不可能になります.

-B/–BDG:the fragment pileup,control lambda,-log 10 pvalueおよび-log 10 qvalue scoresをbedGraphファイルに保持します.NAME+’_treat_pileup.bdg’:実験グループデータNAME+’control_Lambda.bdg’:対照群local lambda values NAME+’treat_pvalue.bdg’: Poisson pvalue scores (in -log10(pvalue) form) NAME+’_treat_qvalue.bdg’ : q-value scores from Benjamini–Hochberg–Yekutieli procedure

–CALL-SUMMITS:信号ピークを再分析し、主ピークの近接ピークを得る.このパラメータは、プライマリ・ピークの周囲の結合イベントを検出する場合に使用できます.その結果,同じ主ピークの近接ピークには同じ範囲と異なる点数,位置があった.

–VERBOSE:MACS実行プロセス情報を非表示にし、0を設定する.各染色体peak情報を知りたい場合は、3または>3の数に設定します.

結果ファイル
1.NAME_peaks.xls peak情報を格納するファイル

染色体名

peak開始位置

peak終了位置

peak領域長

peak summit位置

peak summit位置堆積信号

-log10(pvalue)

fold enrichment for this peak summit against random Poisson distribution with local lambda

-log10(qvalue) at peak summit

peak name

2.NAME_peaks.narrowPeak BED 6+4フォーマット、peak位置情報、peak summit、pvalue and qvalue、UCSC genome browserを使用して表示できます.次のような情報が表示されます.

1 th:染色体名

2 th:peak開始位置

3 th:peak終了位置

4th: peak name

5th: integer score for display, int(-10*log10(pvalue))

7th: fold-change

8th: -log10(pvalue)

9th: -log10qvalue

10 th:ピーク位置とpeak起点の距離

3.NAME_summits.bed BEDフォーマットで、peak summits(peak最高点)位置を含む.結合部位のmotifsを探している場合は、このファイルを使用することをお勧めします.

5th: -log10pvalue

4.NAME_peaks.broadPeak ED 6+3フォーマットはnarrowPeakと同様で、10列目のpeak summitの注釈情報がない以外は.
5.NAME_peaks.gappedPeak BED 12+3形式、broad regionとnarrow peaksを格納し、UCSC genome browserで表示できます.
6.NAME_Model.rプログラムは、実行後に入力データに基づくモデルピクチャ$ Rscript NAME_model.rを生成する
7.bdg files bedGraphファイル、UCSC genome browserをインポートして表示したり、bigWigファイルに変換したりすることができます.

treat_pileup:実験グループbedGraphファイル

control_Lambda:対照グループbedGraphファイル

参照先:
Project description

Javaデータ構造とアルゴリズム分析|疎配列

PostgreSQL functionは複数行を返します