sraデータのダウンロード

2937 ワード

今日はまた魚を触るようになりました.sraデータをダウンロードする過程を記録します.曲がりくねっていますね.
sra filesをダウンロードする目的は、対応するfastqまたはsam filesを取得し、分析することです.
第1選択--Aspera Connect aspera connectがダウンロードできない場合は、sratoolkitのprefetch機能をお勧めします.できるだけwgetやcurlでダウンロードしないでください.速度が遅く、ダウンロードが不完全な場合があります.
注意:Aspera>Sratools>ftp
sraデータをダウンロードするにはAspera connectを使うことができます.これはsraデータを高速でダウンロードする効率的な方法の一つですが、私は正常に実行していません.ああ、久しぶりだね.がっかりしたね.
#download aspera lastest version:

wget https://download.asperasoft.com/download/sw/connect/3.8.1/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz

tar xzvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh

#install aspera in server:

sh aspera-connect-3.8.1.161274-linux-g2.12-64.sh

# add environment variable
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc   

#     /home/    (    ,    )
cp ~/.aspera/connect/etc/asperaweb_id_dsa.openssh ~/

# check help file
ascp --help 

例えばSRR 949627をダウンロードする.sraファイル
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [email protected]:/sra/sra instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra .
# 
   ascp: Source file list not specified, exiting,           ,   
···
  :    .    ,        ,      5M/s,  wget prefetch       。

     
ascp: Failed to open TCP connection for SSH, exiting.

Session Stop  (Error: Failed to open TCP connection for SSH)

On many Linux systems the default firewall can be configured with iptables. You will have to allow all incoming and outgoing traffic on UDP port 33001 (or whatever your Aspera UDP port is), which you can do with the following commands:

# iptables -I INPUT -p tcp --dport 33001 -j ACCEPT

# iptables -I OUTPUT -p tcp --dport 33001 -j ACCEPT



## 2      ftp  

##### 1 wget  

  


wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP%2FSRP055%2FSRP055992/SRR1871481/SRR1871481.sra


2 SRA toolkitのprefetchコマンド
#      
prefetch -v SRR925811`
#      
#for i in `seq 48 62`; 
#do 
#prefetch SRR35899${i} 
#done


また、ダウンロードするページを複数一緒にダウンロードすることもできます.例えば、https://www.ncbi.nlm.nih.gov/sraを選択し、右上隅、send to-file、formatでaccession listを選択し、file(デフォルトはSraAccList.txt)として保存し、prefetch $(
prefetch --option-file id.txt #   

また、geofetch機能も試してみることができます.具体的には
https://github.com/pepkit/geofetch
まとめ
相対的に面倒ですが、やはりAsperaでダウンロードすることをお勧めします.スピードは本当に速いです.次はprefetch、最後はwget
Rも遅いです.後でクイックダウンロードの方法があるかどうか見てみましょう.
SRA toolkitのprefetchでダウンロードし、ダウンロード方法をascpと指定します.コマンドは以下の通りです.各種パラメータの意味は自分でドキュメントを表示します(見るか見ないか)
prefetch -t ascp -a "/home/user/.aspera/connect/bin/ascp|/home/user/.aspera/connect/etc/asperaweb_id_dsa.openssh"--option-file srr.txt-O/opt/user/ncbi-aパラメータにはascpの位置とprevite KEYの位置を絶対パスで書かなければなりません.通常のインストールであればuserを自分のユーザー名に置き換えるだけです.