MACS 2 Call Peakパラメータ詳細学習
5896 ワード
シーケンシング技術の進歩に伴い、染色質免疫沈殿技術は全ゲノムタンパク質−DNA相互作用の研究に広く用いられている.macsは新しいモデルに基づいて転写因子結合部位を良く識別できる.macsは、ChIP−Seqデータに直接適用してもよいし、ChIP−Seqデータをcontrolと組み合わせて特異性を向上させてもよい.
インストール MACS 2機能: macs 2 callpeakはmacs 2の最も主要な機能であり、bamファイルを利用してchip peakを探すことができる.
macs 2 callpeak使用:
パラメータの説明 control:input DNA、免疫共沈処理を経ていない; mock:1)未使用抗体富化タンパク質結合DNA断片2)IgG などの非特異的抗体
hs:
2.7e9
mm:
1.87e9
ce:
9e7
dm:
1.2e8 に設定できます.
結果ファイル
1.NAME_peaks.xls peak情報を格納するファイル染色体名 peak開始位置 peak終了位置 peak領域長 peak summit位置 peak summit位置堆積信号 -log10(pvalue) fold enrichment for this peak summit against random Poisson distribution with local lambda -log10(qvalue) at peak summit peak name
2.NAME_peaks.narrowPeak BED 6+4フォーマット、peak位置情報、peak summit、pvalue and qvalue、UCSC genome browserを使用して表示できます.次のような情報が表示されます.1 th:染色体名 2 th:peak開始位置 3 th:peak終了位置 4th: peak name 5th: integer score for display, 7th: fold-change 8th: -log10(pvalue) 9th: -log10qvalue 10 th:ピーク位置とpeak起点の距離 3.NAME_summits.bed BEDフォーマットで、peak summits(peak最高点)位置を含む.結合部位のmotifsを探している場合は、このファイルを使用することをお勧めします. 5th: -log10pvalue
4.NAME_peaks.broadPeak ED 6+3フォーマットはnarrowPeakと同様で、10列目のpeak summitの注釈情報がない以外は.
5.NAME_peaks.gappedPeak BED 12+3形式、broad regionとnarrow peaksを格納し、UCSC genome browserで表示できます.
6.NAME_Model.rプログラムは、実行後に入力データに基づくモデルピクチャ
7.bdg files bedGraphファイル、UCSC genome browserをインポートして表示したり、bigWigファイルに変換したりすることができます. treat_pileup:実験グループbedGraphファイル control_Lambda:対照グループbedGraphファイル 参照先:
Project description
インストール
pip install MACS2
# regular peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
# broad peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1
パラメータの説明
-T/–TREATMENT FILENAME
:treatグループ-C/–CONTROL
:controlまたはmock(IgGなどの非特異的抗体)群-N/–NAME
:MACS 2出力ファイルに「NAME_peaks.xls’, ‘NAME_negative_peaks.xls’, ‘NAME_peaks.bed’ , ‘NAME_summits.bed’, ‘NAME_model.r’ –OUTDIR
:MACS 2結果ファイル保存パス-F/–FORMAT FORMAT
:MACS 2読み込みファイルフォーマット、「ELAND」、「BED」、「ELANDULTi」、「ELAndeXPORT」、「ELANDULTIOT」(for pair-end tags)、「SAM」、「BAM」、「BOWTIE」、「BAMPE」or「BEDPE」;デフォルトでは、入力ファイルのフォーマットが自動的に検出されるので、異なるフォーマットのファイルを使用できます.-G/–GSIZE
:有効ゲノムサイズ(対ゲノムサイズよりも大きい);ゲノムの中に大量の繰り返し配列シーケンシングが測定されず、実際に比較できるゲノムの大きさは元のゲノムの90%または70%にすぎない.人間のデフォルト値は–2.7 e 9(UCSC human hg 18 assembly)2.7e9
mm:
1.87e9
ce:
9e7
dm:
1.2e8
-S/–TSIZE
:シーケンシング読長;設定しない場合、MACSは入力の最初の10シーケンスで自動的に検出する.–BW
:湿式実験では、音波がゲノムの断片長を遮断し、モデルを構築するために使用される.--Q/–QVALUE
:qvalue(minimum FDR)call significant regionsのしきい値を設定します.デフォルトでは、0.01はbroad marks(タンパク質修飾chipseq)に対して0.05を用いることができる.Q-values are calculated from p-values using Benjamini-Hochberg procedure. -P/–PVALUE
:p値を設定するとqvalueは機能しません.-M/–MFOLD
:モデル構築時、enrichment regions選択基準(MFLD range of high-confidence enrichment ratio against background to build model);DEFAULT:5,50 means using all regions not too low(>5)and not too high(<50)to build paired-peaks model.MACSが100以上のregionsを見つけてモデルを構築できない場合、設定-fix-bimodalの場合、MACSはパラメータ-extsizeを呼び出します.–NOLAMBDA
:peak候補領域のばらつきを考慮せずに背景を使用λlocalとしてλ. –SLOCAL, –LLOCAL
:2つの水平検出peak領域を設定し、最大を計算するλlocalとしてλ.デフォルトでは、MACSは1000 bpをsmall local region(-slocal)、10000 bpsをlarge local region(-llocal)としてオープン染色体領域の偏差を計算します.領域が小さすぎると、尖ったピークが隣の顕著なピークを隠す.–NOMODEL
:MACSはモデルを構築しません.–EXTSIZE
:設定–nomodel、MACSは5’->3’方向にreadsを延長します.転写因子結合領域長200 bpでMACSモデリングもしたくない場合は、このパラメータを200.–SHIFT
:–shiftsizeは–extsizeに置き換えられました.–nomodel設定後、MACSはこのパラメータでreads 5’を切り取り、–extsizeを利用してreads 3’端を延長します.負数にすると逆方向(3’->5’);ChIP-Seq推奨設定は0です.リッチカット部位を検出する場合、例えばDNAseI-Seq datasets、このパラメータは-1*half of EXTSIZE(EXTSIZEは200、このパラメータは-100)に設定すべきである.2つの例:DNAse-Seq、スムーズウィンドウを200 bpsに設定したい場合、パラメータ'-nomodel-shift-100-extsize 200'を使用する.nucleosome-seqは、核小体の半分の大きさを用いてウェーブレット分析を行い、核小体の中心のピークを得る.巻き取り核小体DNA長が147 bpsの場合、パラメータ'-nomodel-shift 37-extsize 73'を使用することができる.–KEEP-DUP
:pvalue(1 e-5)をデフォルトで使用して、各位置maximum tagsを二項分布に基づいて計算します.all’は、すべてのtagsを保持することを表し、整数が設定されている場合、同じ位置にtagsを保持する最大数である.デフォルト値は1で、同じ位置に1 tagが保持されます.–BROAD
:このパラメータは、低いしきい値(-broad-cutoff)に基づいてpeaK付近のリッチ領域をbroad regionに分類してBED 12フォーマットファイルに出力します.broad regionの最大長はMACSで計算したdの4倍である.DEFAULT: False –BROAD-CUTOFF
:broad regionしきい値;pvalue設定はpvalueであり、未設定はqvalueである.DEFAULT: 0.1. –TO-LARGE
:このパラメータ設定後、小さなサンプルを大きなサンプルと同じ深さに線形に拡大します.既定では、大きなサンプルから小さなサンプルの深さに縮小します.注意:小さなサンプルを拡大すると、より多くの偽陽性が発生する可能性があります.–DOWN-SAMPLE
:このパラメータを設定し、ランダムサンプリング法を使用して大きなサンプルを縮小します.ランダムサンプリングは、記憶が不安定で繰り返し不可能になります.-B/–BDG
:the fragment pileup,control lambda,-log 10 pvalueおよび-log 10 qvalue scoresをbedGraphファイルに保持します.NAME+’_treat_pileup.bdg’:実験グループデータNAME+’control_Lambda.bdg’:対照群local lambda values NAME+’treat_pvalue.bdg’: Poisson pvalue scores (in -log10(pvalue) form) NAME+’_treat_qvalue.bdg’ : q-value scores from Benjamini–Hochberg–Yekutieli procedure –CALL-SUMMITS
:信号ピークを再分析し、主ピークの近接ピークを得る.このパラメータは、プライマリ・ピークの周囲の結合イベントを検出する場合に使用できます.その結果,同じ主ピークの近接ピークには同じ範囲と異なる点数,位置があった.–VERBOSE
:MACS実行プロセス情報を非表示にし、0を設定する.各染色体peak情報を知りたい場合は、3または>3の数に設定します.結果ファイル
1.NAME_peaks.xls peak情報を格納するファイル
2.NAME_peaks.narrowPeak BED 6+4フォーマット、peak位置情報、peak summit、pvalue and qvalue、UCSC genome browserを使用して表示できます.次のような情報が表示されます.
int(-10*log10(pvalue))
4.NAME_peaks.broadPeak ED 6+3フォーマットはnarrowPeakと同様で、10列目のpeak summitの注釈情報がない以外は.
5.NAME_peaks.gappedPeak BED 12+3形式、broad regionとnarrow peaksを格納し、UCSC genome browserで表示できます.
6.NAME_Model.rプログラムは、実行後に入力データに基づくモデルピクチャ
$ Rscript NAME_model.r
を生成する7.bdg files bedGraphファイル、UCSC genome browserをインポートして表示したり、bigWigファイルに変換したりすることができます.
Project description