RNA-seqフロー学習ノート(1)-UbuntuシステムSRAデータダウンロードソフトウェアAspera connectとSRT-Toolkitをインストール


自分自身が分子生物学をしているので、生物情報学に関する知識の接触が少ないので、自分の習慣に従って最初から模索します.以下のいくつかの文章を参考にしてAsperaとSRA Toolkitsをダウンロードし、設定し、使用します.この文章はいくつかの文章を総合的に整理し、自分の後で勉強して使用します.
  • 生物情報学データベースについて、「生物情報学データベース資源」の文章を参考に、NCBI、EBI、UCSCなどいくつかの重要なデータベースを紹介し、分析する必要があるデータを知った.
  • SRAデータは主に2つのツールを使用して
  • をダウンロードします.
  • Aspera connectリファレンス:asperaダウンロード.fastq.gzおよび.sraデータを使用してNCBI-SRAおよびEBI-ENAデータベースからデータをダウンロードUbuntu 16.04でAsperaを使用してNCBI-SRAライブラリ遺伝子データ
  • をダウンロード
  • SRA Toolkit参考:生信ソフトウェア|Sratools(SRAファイルの操作)SRA toolkit菜鳥のインストールと使用自習-SRA Toolkitのダウンロードと使用
  • 1.NCBI-SRAおよびEBI-ENAデータベース
    ————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————NCBIの多くのデータベースでは、SRAデータベース(Sequence Read Archive)が、高フラックスシーケンシングの元のデータを保存するためのSRAデータベース(Sequence Read Archive)があります.NCBIに属し、高フラックスシーケンシングの元のデータと比較情報とメタデータ(metadata)を保存します.のデータベースは、発表されたすべての文献におけるハイスループットシーケンシングデータが基本的にここにアップロードされ、他の研究者のダウンロードと再研究が容易になる.その中のデータは圧縮後.sraファイル形式で保存され、SRAデータベースはSRAプロジェクトデータの検索と展示に使用でき、SRAホームページとEntrez systemを含み、NCBIがメンテナンスを担当する.SRAデータベースのデータはStudies、Experiments、Samples、および対応するRunsの4つの階層:
  • Studio:accession numberはDRP,SRP,ERPで始まる特定の目的の研究課題であり、複数の研究機関や研究タイプなどを含むことができる.studyはプロジェクトのすべてのmetadataを含み、NCBIとEBIが共に認めたプロジェクト番号(universal project id)があり、1つのstudyは複数の実験(experiment)を含むことができる.
  • Sample:accession numberは、DRS、SRS、ERSで始まり、サンプル情報を表す.サンプル情報は、種情報、菌株(品系)情報、家系情報、表型データ、臨床データ、組織タイプなどを含むことができる.Traceで問い合わせることができる.
  • Experiment:accession numberはDRX,SRX,ERXで始まる.一つの実験に記載された実験設計(Design)、実験プラットフォーム(Platform)と結果処理(processing)の三つの部分情報を表す.実験はSRAデータベースの最も基本的なユニットであり、一つの実験情報は複数の結果セット(run)を同時に含むことができる.
  • Run:accession numberはDRR,SRR,ERRで始まる.1つのRunはシーケンシングシーケンスおよび品質データを含む.
  • Submission:1つのstudyのデータは、SRAデータベースに複数回に分けて渡すことができます.たとえば、1つのプロジェクトの開始前期にstudy、experimentのデータを渡すことができ、プロジェクトの進展に伴ってrunデータをバッチで渡すことができます.studyはプロジェクトに等しく、submissionはロットの概念に等しいです.
  • NCBIのウェブサイトとは対照的にヨーロッパのEBI(European Bioinformatics Institute)データベースで、その中のサブデータベースであるENAデータベースEuropean Nucleotide Archive機能はSRAと同じで、データに注釈をつけて、インタフェースはもっと友好的で、中は直接.fastq(.gz)と.sraファイルをダウンロードすることができます.
    両者は主な機能面で非常に類似しており、同時にデータが相互に接続されている.
    2.SRAファイルダウンロード方式
    ——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————次に、直接分析のために使用して、だから:第1歩は番号を確定します:私達はSRAあるいはENAの上で私達の選んだSRR号/SDS号/RP号を検索する必要があって、先にENAの上で検索して、もし更にSRAの上で検索しないならば、ENAがSRAより速くダウンロードするため、また直接fastqフォーマットのデータを選ぶことができます.第2歩はデータをダウンロードします:データベースからSRAデータをダウンロードして多種の方法があって、例えば:wgetであるいはcurlなどの伝統的なコマンドはFTPサーバーからsraファイルをダウンロードします(警告:wgetやcurlでsraファイルをダウンロードしないでください.これはダウンロードしたファイルが不完全になります!);ascpコマンドでsraファイルをダウンロードします;NCBIのsratoolkitツールセットのprefetch、fastq-dump、sam-dumpを使用して直接ダウンロードします;またbiostar handbookの中にwonderddumpスクリプトがあってもデータをダウンロードしやすいです(現在検証されていません).本稿では主に前の2つの方法について説明します.
    3.UbuntuコマンドラインAspera Connectソフトウェアのインストール
    ————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————spera公式サイト:https://downloads.asperasoft.com/en/downloads/8?list
    1.wgetコマンドでAspera Connectをダウンロードする
    wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
    

    #wgetコマンドの使い方参考:wgetがWebサイト全体をダウンロードしたり、特定のディレクトリをダウンロードしたりする
    2.tarコマンドで解凍
    tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
    

    #tarコマンドの使い方参考:tarコマンドの詳細説明、linux圧縮解凍#パラメータ:z(gzip関連)x(解凍)v(小言モード)f(後続ファイル名)
    3.bashコマンドでインストール
    bash aspera-connect-3.7.4.147727-linux-64.sh
    

    #bashコマンドの使い方参考:Linux基本bashコマンド(更新継続)
    4.cdコマンドを使用してインストールディレクトリに切り替える
    cd /home/name
    

    #cdコマンドの使い方参考:Linuxコマンドまとめ–cdコマンド、Linux cdコマンド#現在のユーザーのホームディレクトリにジャンプして、~または記号なしでフォルダにデフォルトでインストールすることもできます.
    5.lsコマンドを使用してファイルディレクトリリストを表示する
    ls -a .
    

    #lsコマンドの使用法参照:linuxコマンド詳細のlsコマンド、lsコマンド詳細#隠しファイル(.で始まるファイル)を含むすべてのファイルを表示します..asperaフォルダが表示された場合は、インストールに成功します.
    6.環境変数を永続的に追加する(複雑なプロセス、次のまとめ)
    echo 'export PATH=~/aspera/connect/bin:$PATH' >> ~/.bashrc
    

    #echoコマンドの使い方参考:Linuxコマンド(27)——echoコマンド#exportコマンドの使い方参考:Linuxコマンド(49)——exportコマンド(builtin)#環境変数の修正参考:Linuxシステムに環境変数を追加する方法
    7.sourceコマンドを使用して環境をリフレッシュし、ファイル構成を直ちに有効にする
    source ~/.bashrc
    

    #sourceコマンドの使い方参考:Linuxでsourceコマンドの詳細、linuxでのsourceコマンド#は現在のshellをオフにして再起動することもできます.#このコマンドもさらに勉強する必要があります.
    8.ソフトウェアの運行状況を検査する
    ascp --help
    

    #ヘルプドキュメントの表示#これでインストール完了
    4.UbuntuコマンドラインSRA Toolkitソフトウェアのインストール
    Sratoolsは、SRA(reads and reference alignments)を操作するためのNCBIの公式提供である.データのツールセットは、一般的にSRAファイルのダウンロード、SRAファイルからfastq、samファイルの抽出、SRAファイル情報の表示などに用いられる.NCBI公式サイトダウンロードアドレス:ダウンロードアドレス1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software ダウンロードアドレス2:https://github.com/ncbi/sra-tools/wiki/Downloads 公式紹介ドキュメント:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
    1.wgetで対応バージョンのSRA Toolkitをダウンロード
    # Ubuntu Linux 64 bit architecture - non-sudo tar archive 
    wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz
    

    2.tarコマンドを使用してファイルを解凍する
    tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz
    

    3.解凍したディレクトリの名称変更を行い使いやすい
    mv sratoolkit.2.10.5-ubuntu64.tar.gz sratoolkit
    

    4.必要に応じてソフトウェアを適切なディレクトリに移動
    5.環境変数の追加
    サーバに対して次のように設定します.
    vi ~/.bashrc  # vi/vim     bashrc  
    i  # command line  insertion line
    export PATH=$PATH:~/software/sratoolkit/bin
    ESC, :wq  #  vi        
    source ~/.bashrc  #     
    

    自分のホストLinuxシステムについて以下のように設定します.
    vi ~/.bashrc  # vi/vim     bashrc  
    i  # command line  insertion line
    export PATH=$PATH:/home/xiaomotong/software/sratoolkit/bin
    ESC, :wq  #  vi        
    source ~/.bashrc  #     
    

    参考:Linux環境変数を追加する5つの方法
    6.ソフトウェアの運行状況を検査する
    prefetch -h
    Usage:
      prefetch [options] <SRA accession | kart file> [...]
      Download SRA or dbGaP files and their dependencies
    
      prefetch [options] <SRA file> [...]
      Check SRA file for missed dependencies and download them
    
      prefetch --list <kart file> [...]
      List the content of a kart file