MACS 2 Call Peakパラメータ詳細学習

5896 ワード

シーケンシング技術の進歩に伴い、染色質免疫沈殿技術は全ゲノムタンパク質−DNA相互作用の研究に広く用いられている.macsは新しいモデルに基づいて転写因子結合部位を良く識別できる.macsは、ChIP−Seqデータに直接適用してもよいし、ChIP−Seqデータをcontrolと組み合わせて特異性を向上させてもよい.
インストール
pip install MACS2
  • MACS 2機能:
  • macs 2 callpeakはmacs 2の最も主要な機能であり、bamファイルを利用してchip peakを探すことができる.

  • macs 2 callpeak使用:
  • # regular peak calling:
    macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
    
    # broad peak calling:
    macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1
    

    パラメータの説明
  • -T/–TREATMENT FILENAME:treatグループ
  • -C/–CONTROL:controlまたはmock(IgGなどの非特異的抗体)群
  • control:input DNA、免疫共沈処理を経ていない;
  • mock:1)未使用抗体富化タンパク質結合DNA断片2)IgG
  • などの非特異的抗体
  • -N/–NAME:MACS 2出力ファイルに「NAME_peaks.xls’, ‘NAME_negative_peaks.xls’, ‘NAME_peaks.bed’ , ‘NAME_summits.bed’, ‘NAME_model.r’
  • –OUTDIR:MACS 2結果ファイル保存パス
  • -F/–FORMAT FORMAT:MACS 2読み込みファイルフォーマット、「ELAND」、「BED」、「ELANDULTi」、「ELAndeXPORT」、「ELANDULTIOT」(for pair-end tags)、「SAM」、「BAM」、「BOWTIE」、「BAMPE」or「BEDPE」;デフォルトでは、入力ファイルのフォーマットが自動的に検出されるので、異なるフォーマットのファイルを使用できます.
  • -G/–GSIZE:有効ゲノムサイズ(対ゲノムサイズよりも大きい);ゲノムの中に大量の繰り返し配列シーケンシングが測定されず、実際に比較できるゲノムの大きさは元のゲノムの90%または70%にすぎない.人間のデフォルト値は–2.7 e 9(UCSC human hg 18 assembly)
  • hs:
    2.7e9
    mm:
    1.87e9
    ce:
    9e7
    dm:
    1.2e8
  • -S/–TSIZE:シーケンシング読長;設定しない場合、MACSは入力の最初の10シーケンスで自動的に検出する.
  • –BW:湿式実験では、音波がゲノムの断片長を遮断し、モデルを構築するために使用される.--Q/–QVALUE:qvalue(minimum FDR)call significant regionsのしきい値を設定します.デフォルトでは、0.01はbroad marks(タンパク質修飾chipseq)に対して0.05を用いることができる.Q-values are calculated from p-values using Benjamini-Hochberg procedure.
  • -P/–PVALUE:p値を設定するとqvalueは機能しません.
  • -M/–MFOLD:モデル構築時、enrichment regions選択基準(MFLD range of high-confidence enrichment ratio against background to build model);DEFAULT:5,50 means using all regions not too low(>5)and not too high(<50)to build paired-peaks model.MACSが100以上のregionsを見つけてモデルを構築できない場合、設定-fix-bimodalの場合、MACSはパラメータ-extsizeを呼び出します.
  • –NOLAMBDA:peak候補領域のばらつきを考慮せずに背景を使用λlocalとしてλ.
  • –SLOCAL, –LLOCAL:2つの水平検出peak領域を設定し、最大を計算するλlocalとしてλ.デフォルトでは、MACSは1000 bpをsmall local region(-slocal)、10000 bpsをlarge local region(-llocal)としてオープン染色体領域の偏差を計算します.領域が小さすぎると、尖ったピークが隣の顕著なピークを隠す.
  • –NOMODEL:MACSはモデルを構築しません.
  • –EXTSIZE:設定–nomodel、MACSは5’->3’方向にreadsを延長します.転写因子結合領域長200 bpでMACSモデリングもしたくない場合は、このパラメータを200.
  • に設定できます.
  • –SHIFT:–shiftsizeは–extsizeに置き換えられました.–nomodel設定後、MACSはこのパラメータでreads 5’を切り取り、–extsizeを利用してreads 3’端を延長します.負数にすると逆方向(3’->5’);ChIP-Seq推奨設定は0です.リッチカット部位を検出する場合、例えばDNAseI-Seq datasets、このパラメータは-1*half of EXTSIZE(EXTSIZEは200、このパラメータは-100)に設定すべきである.2つの例:DNAse-Seq、スムーズウィンドウを200 bpsに設定したい場合、パラメータ'-nomodel-shift-100-extsize 200'を使用する.nucleosome-seqは、核小体の半分の大きさを用いてウェーブレット分析を行い、核小体の中心のピークを得る.巻き取り核小体DNA長が147 bpsの場合、パラメータ'-nomodel-shift 37-extsize 73'を使用することができる.
  • –KEEP-DUP:pvalue(1 e-5)をデフォルトで使用して、各位置maximum tagsを二項分布に基づいて計算します.all’は、すべてのtagsを保持することを表し、整数が設定されている場合、同じ位置にtagsを保持する最大数である.デフォルト値は1で、同じ位置に1 tagが保持されます.
  • –BROAD:このパラメータは、低いしきい値(-broad-cutoff)に基づいてpeaK付近のリッチ領域をbroad regionに分類してBED 12フォーマットファイルに出力します.broad regionの最大長はMACSで計算したdの4倍である.DEFAULT: False
  • –BROAD-CUTOFF:broad regionしきい値;pvalue設定はpvalueであり、未設定はqvalueである.DEFAULT: 0.1.
  • –TO-LARGE:このパラメータ設定後、小さなサンプルを大きなサンプルと同じ深さに線形に拡大します.既定では、大きなサンプルから小さなサンプルの深さに縮小します.注意:小さなサンプルを拡大すると、より多くの偽陽性が発生する可能性があります.
  • –DOWN-SAMPLE:このパラメータを設定し、ランダムサンプリング法を使用して大きなサンプルを縮小します.ランダムサンプリングは、記憶が不安定で繰り返し不可能になります.
  • -B/–BDG:the fragment pileup,control lambda,-log 10 pvalueおよび-log 10 qvalue scoresをbedGraphファイルに保持します.NAME+’_treat_pileup.bdg’:実験グループデータNAME+’control_Lambda.bdg’:対照群local lambda values NAME+’treat_pvalue.bdg’: Poisson pvalue scores (in -log10(pvalue) form) NAME+’_treat_qvalue.bdg’ : q-value scores from Benjamini–Hochberg–Yekutieli procedure
  • –CALL-SUMMITS:信号ピークを再分析し、主ピークの近接ピークを得る.このパラメータは、プライマリ・ピークの周囲の結合イベントを検出する場合に使用できます.その結果,同じ主ピークの近接ピークには同じ範囲と異なる点数,位置があった.
  • –VERBOSE:MACS実行プロセス情報を非表示にし、0を設定する.各染色体peak情報を知りたい場合は、3または>3の数に設定します.

  • 結果ファイル
    1.NAME_peaks.xls peak情報を格納するファイル
  • 染色体名
  • peak開始位置
  • peak終了位置
  • peak領域長
  • peak summit位置
  • peak summit位置堆積信号
  • -log10(pvalue)
  • fold enrichment for this peak summit against random Poisson distribution with local lambda
  • -log10(qvalue) at peak summit
  • peak name

  • 2.NAME_peaks.narrowPeak BED 6+4フォーマット、peak位置情報、peak summit、pvalue and qvalue、UCSC genome browserを使用して表示できます.次のような情報が表示されます.
  • 1 th:染色体名
  • 2 th:peak開始位置
  • 3 th:peak終了位置
  • 4th: peak name
  • 5th: integer score for display, int(-10*log10(pvalue))
  • 7th: fold-change
  • 8th: -log10(pvalue)
  • 9th: -log10qvalue
  • 10 th:ピーク位置とpeak起点の距離
  • 3.NAME_summits.bed BEDフォーマットで、peak summits(peak最高点)位置を含む.結合部位のmotifsを探している場合は、このファイルを使用することをお勧めします.
  • 5th: -log10pvalue

  • 4.NAME_peaks.broadPeak ED 6+3フォーマットはnarrowPeakと同様で、10列目のpeak summitの注釈情報がない以外は.
    5.NAME_peaks.gappedPeak BED 12+3形式、broad regionとnarrow peaksを格納し、UCSC genome browserで表示できます.
    6.NAME_Model.rプログラムは、実行後に入力データに基づくモデルピクチャ$ Rscript NAME_model.rを生成する
    7.bdg files bedGraphファイル、UCSC genome browserをインポートして表示したり、bigWigファイルに変換したりすることができます.
  • treat_pileup:実験グループbedGraphファイル
  • control_Lambda:対照グループbedGraphファイル
  • 参照先:
    Project description