シーケンスパッチ-Velvet

4250 ワード

ゲノムシーケンシングデータの先頭組立プロセス:シーケンシングリードセグメント(reads)>contig>scaffold>chromosome
1.コアアルゴリズム
ゲノムシーケンシングデータの最初から組み立てるコアアルゴリズムは主に以下のいくつかの種類に分けることができる.
  • 貪欲アルゴリズム(greedy-extention)(基本淘汰)に基づく.
  • は、Overlap-Layout-Consensus(OLC)に基づいている(世代シーケンシング**に適している).
  • de Brijn Graphに基づく.
  • 以上の2つ以上のアルゴリズムの組み合わせ.
  • その他のタイプ.
  • 結果比較:contig N 50,scaffold N 50,BUSCO
  • 2.一般手順
  • 最初のステップは、データ品質制御制御-fastp
  • である.
  • 第2のステップは、K−merおよびカバー率
  • のような開始パラメータを決定する.
  • 第3歩は、異なるソフトウェアを使用して組み立てる.
  • 第4ステップでは、contig N 50、scaffold N 50などの組立結果を評価し、パラメータの再組立を修正する必要があるかどうかを判断する.(QUASTとBUSCO)
  • 3.シーケンスパッチ-velvet
    1. Velvet - Current version: 1.2.10
    一般的な作業手順は、short readsシーケンスの入力>エラーの排除>高品質のcontigsの生成>paired-end readsとlong reads情報を使用してcontigs間の重複領域を取得することに簡略化されます.
    2.Velvetダウンロードインストール
  • velvetのインストールパッケージをダウンロードし、makeコマンドを直接使用してコンパイルすると、実行可能なメインプログラムvelvethとvelvetgが得られます.インストールは次のとおりです:
  • wget \ 
    -O velvet.tgz
    http://www.ebi.ac.uk/~zerbino/velvet/velvet_....tgz
    tar zxf velvet.tgz
    cd velvet.tgz
    make 'CATEGORIES=10' 'MAXKMERLENGTH=57'\ 'LONGSEQUENCES=1' 'OPENMP=1' 'BUNDLEDZLIB=1'
    

    パラメータの詳細
  • CATEGORIES=10:10 groups of short readsと入力します.元のデータに応じてその値のサイズを増減する.値が大きいほど、メモリ消費量が大きくなります.
  • MAXKMERLENGTH=31:最大Kmer長31(デフォルトは31).(k-mersは一般的に17を選択すればよいが、高度に重複するゲノムやゲノムが大きすぎる場合は19乃至31を選択してもよい.ただし、大きくなればなるほどkmerが大きくなり、メモリが消費されるわけではない.また、1つのreadsにエラー部位があるほど、大きなk-mersがこのエラー部位を含むk-mers個数が増加する)
  • BIGASSEMBLY=1:2.2 Gを超えるreadsがゲノムの組み立てに使用される場合、この値を設定する必要があります.
  • LONGSEQUENCES=1:contigs長さが32 kb長を超える場合、この値を設定する必要があります.
  • OPENMP=1:マルチスレッド運転.環境変数OMP_を設定する必要がありますNUM_THREADSとOMP_THREAD_LIMIT.最大OMP_NUM_THREADS+1またはOMP_THREAD_LIMITスレッド
  • BUNDLEDZLIB=1:velvetはデフォルトでシステムに付属するzlibを使用します.システムにzlibがない場合は、velvetソースパッケージのzlibを使用するためにこのパラメータを追加する必要があります.

  • 3.機能紹介
  • velveth-準備データ
  • velvetが持参した2つのスクリプトプログラムを使用してpair-endデータを統合
    #fasta   
    ​shuffleSequences_fasta.pl s1_1.fasta s1_2.fasta s1.fasta
        ​
    #fastq   
    shuffleSequences_fastq.pl s1_1.fq s1_2.fq s1.fq
    
  • フォーマットコード:./velveth directory/hash_length[-file_format][-read_type][filename][options]複数のライブラリがある場合は、太字部分のフォーマットで繰り返し書きます.Directory:出力ファイルが存在するパスの名前(フォルダ格納結果ファイルを作成する)hash_length:k-mer lengthとも呼ばれます(開始設定、値が大きいほどメモリ要件が大きくなります)filename:標準入力ファイル名Options:-strand_specific:転写グループシーケンスデータ、デフォルトoffサポートファイルフォーマット:fasta(デフォルト)、fastq、fasta.gz,fastq.gz,eland,gerald. リードカテゴリ:short,shortPaired,short 2,shortPaired 2,long,longPaired.デフォルトはshort
  • 例:
     ./velveth output_directory/ 21 –fasta –short solexa1.fa solexa2.fa solexa3.fa –long capillary.fa 
  • Velvetg-シーケンス組立
  • コード:./velvetg directory [options]
    Directory:ワークパス名
    Standard options:
    -cov_Cutoff:低カバー率のnodeを除去し、デフォルトでは除去しません.
    #    +   , :
        ./velvetg output_directory/ -cov_cutoff 5.2
    

    -ins_length:two paired end reads間の所望の距離、デフォルトno read pairing
    -read_trkg:short readの位置をコレクションで追跡し、デフォルトでは追跡しません
    -min_contig_lgth:contigにエクスポートfaファイルの最小contig長さ、デフォルトはhash長の2倍
    -amos_file:AMOSファイルにエクスポートされ、デフォルトではエクスポートされません(no)
    -exp_cov:一意領域の所望カバー率
    Advanced options:
    -ins_length 2:2番目のshort-readデータセットでの2つのpaired-end readsの所望の距離、デフォルトNo
    -ins_length_long:2つのlong paired-end readsの所望距離、デフォルトNo
    -ins_length_sd:データセットの標準差、デフォルトcorresponding lengthの10%(代表:nothing,2,_long)
    -scaffolding :scaffolding of contigs used paired end information (default: on)-->
    -max_pergence:1つのbubbleの2つのブランチの最大分岐率、デフォルト0.2-->
    -min_pair_count:2つの長いcontigsを構成するpaired endの最小値、デフォルト10
    -max_Coverage:tour bus後に高カバー率のnodeを除去する
    -long_mult_Cutoff:contigをマージするlong readsの最小値、デフォルト2
    -unused_reads:不要なreadsをUnusedReadsにエクスポートする.faファイル、デフォルトNo
    -alignments:主要なcontigをエクスポートし、参照シーケンスと照合します.デフォルトNo
  • velvetg-出力結果
  • directory/contigs.faの長さの2倍はkmerのcontigsより長い.-scaffoldingは、生成されたfastaファイルにscaffoldシーケンスが含まれているかどうかを決定する.
  • directory/stats.txt-被覆度cutoffを決定する統計表
  • directory/preGraph-初期de vruijin図
  • directory/Graph 2-最終de bruijin図.
  • directory/velvet_asm.afg-MOS互換ファイル、AMOSゲノム組立パッケージ
  • に使用可能
  • directory/LOg velvetの運転記録