본문 바로가기

생명과학을 위한 생물학+정보학

NCBI BLAST+ 데이터베이스만들기


참고블로그는 다음과 같다.

 http://www.ibric.org/myboard/read.php?Board=news&id=256043&BackLink=L215Ym9hcmQvbGlzdC5waHA/Qm9hcmQ9bmV3cyZQQVJBMz0xMA==


이 블로그는 위 블로그 내용에 따라 직접 실습한 내용을 적어놓은 학습노트입니다. 고주온박사님께 감사드립니다.



설치

1) 윈도우 설치용 파일 (32비트-윈도우: ncbi-blast-2.2.30+-win32.exe 또는 64비트-윈도우: ncbi-blast-2.2.30+-win64.exe)
 ftp://ftp.ncbi.nih.gov/blast/executables/blast+/LATEST


위 링크를 클릭하면 다음처럼 나온다. 혹 32비트 사용자라면 해당 파일명이 없어서 당황할 수 있다. 왼쪽 위 상위디렉토리를 클릭하면 32비트용 마지막 버전이 나온다. 



32비트 마지막 버전이다. 3번째 실행용파일은 다운받으면 된다.




tnftp로 초파리 (Drosophila melanogaster)의 단백질 (drosoph.aa)과 DNA (drosoph.nt) 서열 데이터를 다운받아  자체 BLAST+ 데이터베이스를 만들고 분석해 본다.



1. which blastp    #도구들이 설치 된 위치확인. 만약 에러가 생기는 경우는 bash쉘을 껏다가 다시 켠다음 시도해보자.

2. apt-cyg install tnftp    #apt-cyg패키지를 사용하여 tnftp내려받기



3. type -a tnftp    #다운받은 tnftp도구 위치확인

4. mkdir -p BLAST/blastdb    #디렉토리를 만든다.

5. cd BLAST/blastdb   

6. tnftp ftp.ncbi.nih.gov    #NCBI FTP 사이트에 접속한다.

7. 로그인은 anonymous    #익명으로 접속한다. 주의할 점은 30초내에 입력을 마쳐야 한다. 아니면 다시 접속을 해야한다. 접속한후도 마찬가지로 30초에서 60초까지 입력을 마치도록 되어 있으므로 타자를 빨리치는 것이 좋다.^^

8.비밀번호는 이메일을 입력    #아무리 타자를 쳐도 키가 입력이 않되니다. 헉! 이메일을 복붙했더니 접속이 된다. 암호라서 드러나지 않도록 만든것 같다.




9. cd blast/db/FASTA    #원하는 자료가 있는 디렉토리로 이동. cd뒤에 꼭 한칸 띄어쓰기를 한다.

10. ls drosoph.*    #다운받고자 하는 자료 검색

11. mget drosoph.*    #mget명령으로 다운로드한다.

12. a     #여러파일을 받을지 묻는질문에 all의 약자인 a를 입력

13. ?    # ?는 ftp에서 사용하는 명령어 확인용

14. ls    #확인

15. quit     #접속종료




 쉘 프롬프트에서 다음을 확인한다.

1. md5sum drosoph.aa.gz    #md5sum으로 무결점성 확인

2. cat drosoph.aa.gz.md5    # cat으로 무결정성확인 . 1과2는 출력하여 확인하는 방법

3. md5sum -c drosoph.aa.gz.md5     #출력이 아니라 프로그램상에서 확인하는 방법 

4. gunzip drosoph.aa.gz     #gzip으로 파일압축을 풀기

5. gunzip drosoph.nt.gz 

6. ls




7. head drosoph.aa     # head 명령으로 파일 앞부분확인

8. less drosoph.aa     # less 명령으로 내용을 출력해본다. 

9. q     # 출력을 중지하고자 할때 사용한다.





<참고>

※ apt-cyg를 version-up하기 위하여 다음과 같이 조치한 다음, 사용해 보시기 바랍니다.

---
$ lynx -source rawgit.com/transcode-open/apt-cyg/master/apt-cyg > apt-cyg
$ install apt-cyg /bin
---

이후, /bin 디렉터리에 apt-cyg가 설치되었는지 확인하고, 다른 곳의 (e.g. /usr/bin 또는 /usr/local/bin 디렉터리 등) apt-cyg 중복 설치 여부를 확인한 후 사용하십시요. 가장 확실한 방법은 apt-cyg 사용 시에 "/bin/apt-cyg" 라고 입력하는 것입니다.

---
$ /bin/apt-cyg install tnftp
---

참고로, apt-cyg의 version을 확인하는 옵션은 '--version'입니다.

---
$ /bin/apt-cyg --version
$ /usr/bin/apt-cyg --version
$ /usr/local/bin/apt-cyg --version
---