RNA-seqフロー学習ノート(1)-UbuntuシステムSRAデータダウンロードソフトウェアAspera connectとSRT-Toolkitをインストール
8768 ワード
自分自身が分子生物学をしているので、生物情報学に関する知識の接触が少ないので、自分の習慣に従って最初から模索します.以下のいくつかの文章を参考にしてAsperaとSRA Toolkitsをダウンロードし、設定し、使用します.この文章はいくつかの文章を総合的に整理し、自分の後で勉強して使用します.生物情報学データベースについて、「生物情報学データベース資源」の文章を参考に、NCBI、EBI、UCSCなどいくつかの重要なデータベースを紹介し、分析する必要があるデータを知った. SRAデータは主に2つのツールを使用して をダウンロードします. Aspera connectリファレンス:asperaダウンロード.fastq.gzおよび.sraデータを使用してNCBI-SRAおよびEBI-ENAデータベースからデータをダウンロードUbuntu 16.04でAsperaを使用してNCBI-SRAライブラリ遺伝子データ をダウンロード SRA Toolkit参考:生信ソフトウェア|Sratools(SRAファイルの操作)SRA toolkit菜鳥のインストールと使用自習-SRA Toolkitのダウンロードと使用 1.NCBI-SRAおよびEBI-ENAデータベース
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————NCBIの多くのデータベースでは、SRAデータベース(Sequence Read Archive)が、高フラックスシーケンシングの元のデータを保存するためのSRAデータベース(Sequence Read Archive)があります.NCBIに属し、高フラックスシーケンシングの元のデータと比較情報とメタデータ(metadata)を保存します.のデータベースは、発表されたすべての文献におけるハイスループットシーケンシングデータが基本的にここにアップロードされ、他の研究者のダウンロードと再研究が容易になる.その中のデータは圧縮後.sraファイル形式で保存され、SRAデータベースはSRAプロジェクトデータの検索と展示に使用でき、SRAホームページとEntrez systemを含み、NCBIがメンテナンスを担当する.SRAデータベースのデータはStudies、Experiments、Samples、および対応するRunsの4つの階層: Studio:accession numberはDRP,SRP,ERPで始まる特定の目的の研究課題であり、複数の研究機関や研究タイプなどを含むことができる.studyはプロジェクトのすべてのmetadataを含み、NCBIとEBIが共に認めたプロジェクト番号(universal project id)があり、1つのstudyは複数の実験(experiment)を含むことができる. Sample:accession numberは、DRS、SRS、ERSで始まり、サンプル情報を表す.サンプル情報は、種情報、菌株(品系)情報、家系情報、表型データ、臨床データ、組織タイプなどを含むことができる.Traceで問い合わせることができる. Experiment:accession numberはDRX,SRX,ERXで始まる.一つの実験に記載された実験設計(Design)、実験プラットフォーム(Platform)と結果処理(processing)の三つの部分情報を表す.実験はSRAデータベースの最も基本的なユニットであり、一つの実験情報は複数の結果セット(run)を同時に含むことができる. Run:accession numberはDRR,SRR,ERRで始まる.1つのRunはシーケンシングシーケンスおよび品質データを含む. Submission:1つのstudyのデータは、SRAデータベースに複数回に分けて渡すことができます.たとえば、1つのプロジェクトの開始前期にstudy、experimentのデータを渡すことができ、プロジェクトの進展に伴ってrunデータをバッチで渡すことができます.studyはプロジェクトに等しく、submissionはロットの概念に等しいです. NCBIのウェブサイトとは対照的にヨーロッパのEBI(European Bioinformatics Institute)データベースで、その中のサブデータベースであるENAデータベースEuropean Nucleotide Archive機能はSRAと同じで、データに注釈をつけて、インタフェースはもっと友好的で、中は直接.fastq(.gz)と.sraファイルをダウンロードすることができます.
両者は主な機能面で非常に類似しており、同時にデータが相互に接続されている.
2.SRAファイルダウンロード方式
——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————次に、直接分析のために使用して、だから:第1歩は番号を確定します:私達はSRAあるいはENAの上で私達の選んだSRR号/SDS号/RP号を検索する必要があって、先にENAの上で検索して、もし更にSRAの上で検索しないならば、ENAがSRAより速くダウンロードするため、また直接fastqフォーマットのデータを選ぶことができます.第2歩はデータをダウンロードします:データベースからSRAデータをダウンロードして多種の方法があって、例えば:wgetであるいはcurlなどの伝統的なコマンドはFTPサーバーからsraファイルをダウンロードします(警告:wgetやcurlでsraファイルをダウンロードしないでください.これはダウンロードしたファイルが不完全になります!);ascpコマンドでsraファイルをダウンロードします;NCBIのsratoolkitツールセットのprefetch、fastq-dump、sam-dumpを使用して直接ダウンロードします;またbiostar handbookの中にwonderddumpスクリプトがあってもデータをダウンロードしやすいです(現在検証されていません).本稿では主に前の2つの方法について説明します.
3.UbuntuコマンドラインAspera Connectソフトウェアのインストール
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————spera公式サイト:https://downloads.asperasoft.com/en/downloads/8?list
1.wgetコマンドでAspera Connectをダウンロードする
#wgetコマンドの使い方参考:wgetがWebサイト全体をダウンロードしたり、特定のディレクトリをダウンロードしたりする
2.tarコマンドで解凍
#tarコマンドの使い方参考:tarコマンドの詳細説明、linux圧縮解凍#パラメータ:z(gzip関連)x(解凍)v(小言モード)f(後続ファイル名)
3.bashコマンドでインストール
#bashコマンドの使い方参考:Linux基本bashコマンド(更新継続)
4.cdコマンドを使用してインストールディレクトリに切り替える
#cdコマンドの使い方参考:Linuxコマンドまとめ–cdコマンド、Linux cdコマンド#現在のユーザーのホームディレクトリにジャンプして、~または記号なしでフォルダにデフォルトでインストールすることもできます.
5.lsコマンドを使用してファイルディレクトリリストを表示する
#lsコマンドの使用法参照:linuxコマンド詳細のlsコマンド、lsコマンド詳細#隠しファイル(.で始まるファイル)を含むすべてのファイルを表示します..asperaフォルダが表示された場合は、インストールに成功します.
6.環境変数を永続的に追加する(複雑なプロセス、次のまとめ)
#echoコマンドの使い方参考:Linuxコマンド(27)——echoコマンド#exportコマンドの使い方参考:Linuxコマンド(49)——exportコマンド(builtin)#環境変数の修正参考:Linuxシステムに環境変数を追加する方法
7.sourceコマンドを使用して環境をリフレッシュし、ファイル構成を直ちに有効にする
#sourceコマンドの使い方参考:Linuxでsourceコマンドの詳細、linuxでのsourceコマンド#は現在のshellをオフにして再起動することもできます.#このコマンドもさらに勉強する必要があります.
8.ソフトウェアの運行状況を検査する
#ヘルプドキュメントの表示#これでインストール完了
4.UbuntuコマンドラインSRA Toolkitソフトウェアのインストール
Sratoolsは、SRA(reads and reference alignments)を操作するためのNCBIの公式提供である.データのツールセットは、一般的にSRAファイルのダウンロード、SRAファイルからfastq、samファイルの抽出、SRAファイル情報の表示などに用いられる.NCBI公式サイトダウンロードアドレス:ダウンロードアドレス1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software ダウンロードアドレス2:https://github.com/ncbi/sra-tools/wiki/Downloads 公式紹介ドキュメント:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
1.wgetで対応バージョンのSRA Toolkitをダウンロード
2.tarコマンドを使用してファイルを解凍する
3.解凍したディレクトリの名称変更を行い使いやすい
4.必要に応じてソフトウェアを適切なディレクトリに移動
5.環境変数の追加
サーバに対して次のように設定します.
自分のホストLinuxシステムについて以下のように設定します.
参考:Linux環境変数を追加する5つの方法
6.ソフトウェアの運行状況を検査する
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————NCBIの多くのデータベースでは、SRAデータベース(Sequence Read Archive)が、高フラックスシーケンシングの元のデータを保存するためのSRAデータベース(Sequence Read Archive)があります.NCBIに属し、高フラックスシーケンシングの元のデータと比較情報とメタデータ(metadata)を保存します.のデータベースは、発表されたすべての文献におけるハイスループットシーケンシングデータが基本的にここにアップロードされ、他の研究者のダウンロードと再研究が容易になる.その中のデータは圧縮後.sraファイル形式で保存され、SRAデータベースはSRAプロジェクトデータの検索と展示に使用でき、SRAホームページとEntrez systemを含み、NCBIがメンテナンスを担当する.SRAデータベースのデータはStudies、Experiments、Samples、および対応するRunsの4つの階層:
両者は主な機能面で非常に類似しており、同時にデータが相互に接続されている.
2.SRAファイルダウンロード方式
——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————次に、直接分析のために使用して、だから:第1歩は番号を確定します:私達はSRAあるいはENAの上で私達の選んだSRR号/SDS号/RP号を検索する必要があって、先にENAの上で検索して、もし更にSRAの上で検索しないならば、ENAがSRAより速くダウンロードするため、また直接fastqフォーマットのデータを選ぶことができます.第2歩はデータをダウンロードします:データベースからSRAデータをダウンロードして多種の方法があって、例えば:wgetであるいはcurlなどの伝統的なコマンドはFTPサーバーからsraファイルをダウンロードします(警告:wgetやcurlでsraファイルをダウンロードしないでください.これはダウンロードしたファイルが不完全になります!);ascpコマンドでsraファイルをダウンロードします;NCBIのsratoolkitツールセットのprefetch、fastq-dump、sam-dumpを使用して直接ダウンロードします;またbiostar handbookの中にwonderddumpスクリプトがあってもデータをダウンロードしやすいです(現在検証されていません).本稿では主に前の2つの方法について説明します.
3.UbuntuコマンドラインAspera Connectソフトウェアのインストール
————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————spera公式サイト:https://downloads.asperasoft.com/en/downloads/8?list
1.wgetコマンドでAspera Connectをダウンロードする
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
#wgetコマンドの使い方参考:wgetがWebサイト全体をダウンロードしたり、特定のディレクトリをダウンロードしたりする
2.tarコマンドで解凍
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#tarコマンドの使い方参考:tarコマンドの詳細説明、linux圧縮解凍#パラメータ:z(gzip関連)x(解凍)v(小言モード)f(後続ファイル名)
3.bashコマンドでインストール
bash aspera-connect-3.7.4.147727-linux-64.sh
#bashコマンドの使い方参考:Linux基本bashコマンド(更新継続)
4.cdコマンドを使用してインストールディレクトリに切り替える
cd /home/name
#cdコマンドの使い方参考:Linuxコマンドまとめ–cdコマンド、Linux cdコマンド#現在のユーザーのホームディレクトリにジャンプして、~または記号なしでフォルダにデフォルトでインストールすることもできます.
5.lsコマンドを使用してファイルディレクトリリストを表示する
ls -a .
#lsコマンドの使用法参照:linuxコマンド詳細のlsコマンド、lsコマンド詳細#隠しファイル(.で始まるファイル)を含むすべてのファイルを表示します..asperaフォルダが表示された場合は、インストールに成功します.
6.環境変数を永続的に追加する(複雑なプロセス、次のまとめ)
echo 'export PATH=~/aspera/connect/bin:$PATH' >> ~/.bashrc
#echoコマンドの使い方参考:Linuxコマンド(27)——echoコマンド#exportコマンドの使い方参考:Linuxコマンド(49)——exportコマンド(builtin)#環境変数の修正参考:Linuxシステムに環境変数を追加する方法
7.sourceコマンドを使用して環境をリフレッシュし、ファイル構成を直ちに有効にする
source ~/.bashrc
#sourceコマンドの使い方参考:Linuxでsourceコマンドの詳細、linuxでのsourceコマンド#は現在のshellをオフにして再起動することもできます.#このコマンドもさらに勉強する必要があります.
8.ソフトウェアの運行状況を検査する
ascp --help
#ヘルプドキュメントの表示#これでインストール完了
4.UbuntuコマンドラインSRA Toolkitソフトウェアのインストール
Sratoolsは、SRA(reads and reference alignments)を操作するためのNCBIの公式提供である.データのツールセットは、一般的にSRAファイルのダウンロード、SRAファイルからfastq、samファイルの抽出、SRAファイル情報の表示などに用いられる.NCBI公式サイトダウンロードアドレス:ダウンロードアドレス1:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software ダウンロードアドレス2:https://github.com/ncbi/sra-tools/wiki/Downloads 公式紹介ドキュメント:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
1.wgetで対応バージョンのSRA Toolkitをダウンロード
# Ubuntu Linux 64 bit architecture - non-sudo tar archive
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.10.5/sratoolkit.2.10.5-ubuntu64.tar.gz
2.tarコマンドを使用してファイルを解凍する
tar -zxvf sratoolkit.2.10.5-ubuntu64.tar.gz
3.解凍したディレクトリの名称変更を行い使いやすい
mv sratoolkit.2.10.5-ubuntu64.tar.gz sratoolkit
4.必要に応じてソフトウェアを適切なディレクトリに移動
5.環境変数の追加
サーバに対して次のように設定します.
vi ~/.bashrc # vi/vim bashrc
i # command line insertion line
export PATH=$PATH:~/software/sratoolkit/bin
ESC, :wq # vi
source ~/.bashrc #
自分のホストLinuxシステムについて以下のように設定します.
vi ~/.bashrc # vi/vim bashrc
i # command line insertion line
export PATH=$PATH:/home/xiaomotong/software/sratoolkit/bin
ESC, :wq # vi
source ~/.bashrc #
参考:Linux環境変数を追加する5つの方法
6.ソフトウェアの運行状況を検査する
prefetch -h
Usage:
prefetch [options] <SRA accession | kart file> [...]
Download SRA or dbGaP files and their dependencies
prefetch [options] <SRA file> [...]
Check SRA file for missed dependencies and download them
prefetch --list <kart file> [...]
List the content of a kart file