BWA使用説明

2194 ワード

bwaの使用には二つが必要です.
入力ファイル
:
    Reference genome dataと
Shot reads data
Step 1:Indexを作成する
reference genome dataによってIndex Fileを作成します.
bwa index-a bwtsw reference.fa
インデックスを構築する際に注意する必要がある問題:bwa構築インデックスには3つのアルゴリズムがあり、3つのアルゴリズムはすべてBWTに基づいています.この3つのアルゴリズムはパラメータ-a is、－a div、-a bwtswによって選択されます.ここで-a bwtswは短い参照シーケンスでは動作しないので、10 Mb以上でなければならない.a is(効果と-a divは同じです)はデフォルトパラメータです.このパラメータは大きい参照シーケンスには適用されません.2 G以下でなければなりません.
step 2:SA coordinationを探しています.
pair-endデータであれば、それぞれ処理します.
bwa aln reference.fa read_1.fq>read_1.sai
   bwa aln reference.fa read_2.fq>read_2.sai
singleデータであれば(read.fq)
   bwa aln reference.fa read.fq>read.sai
マルチスレッドを実行したい場合は、-tというパラメータを追加し、さらに-fというパラメータは結果出力ファイルを指定できます.
   bwa aln -t 3-f read.sai reference.fa read.fq
主なパラメータの説明:
-o int:許容最大gap数.
-e int:各gapが許容する最大長さ.
-d int:3’の端にいくつ以上のbpよりも大きいdeletionが現れることは許されません.
-i int:readsの両端にどのぐらいのbpより大きいindelが現れるかは許されない.
-l int:Readの前に何個かの塩基をseedとして設定しましたが、設定されたseedがreadの長さより大きいと継続できなくなり、25-35に設定し、-k 2と協力して使用することが望ましいです.
-k int:seedでの最大編集距離は、デフォルト2を使用して-lと連携して使用します.
-t int:使用するスレッドの数.
-R int:このパラメータは、pair endにのみ適用されます.この値よりも大きい最適なペアの結果がない場合、基準を下げて再度比較します.この値を増やすとペアリング比の精度が向上しますが、同時により長い時間がかかります.デフォルトは32です.
-I int:入力を示すファイル形式はILumina 1.3＋データフォーマットです.
-B int:マーカーシーケンスを設定します.5’端からいくつかの塩基配列をマーキングシーケンスとして開始し、-Bが正の値である場合、ペアの前に各readのマーカーシーケンスをカットし、このマーカーシーケンスをBC SAMラベルに表示し、pair endデータに対して両端のマーカーシーケンスが接続されます.
-b:入力フォーマットをbam形式で指定します.
Step 3:変換SA coordination出力はsamです.
pair-endデータなら
   bwa sampe-f pair-end.sam reference.fa read_1.sai read_2.sai read_1.fq read_2.fq
single readsデータなら   bwa samse-f single.sam reference.fa read.sai read.fq
主なパラメータの説明:
-a int:最大挿入フラグメントサイズ.
-o int:pair end両readsのうちの一つで許容されるペアリングの最大回数が、この回数を超えると、
single endこのパラメータを下げると、演算速度が速くなります.30 bp以下のreadに対しては、-o値を下げることを提案します.
-r str:定義ヘッダファイル.同single end
-n int:ペア毎に結果に出力する最大比対数

その他:

fai  ref         ，               
sai  fastq        ，          sam

公式文書
http://www.bbioo.com/lifesciences/40-113315-1.html http://bio-bwa.sourceforge.net/bwa.shtml

lua牛のアルゴリズムとサイズの比較

smaote(オーバーサンプリングアルゴリズム)