reciprocal_smallest_distance 글로벌 서열 정렬과 시퀀스 사이의 최대 우도 진화 거리를 정확하게 게놈 사이의 orthologs를 감지 할 수를 사용하는 페어 orthology 알고리즘입니다.
타르볼에서 설치
다운로드 GitHub의에서 최신 버전의 압축을 풉니 다
CD ~
컬 -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | 타르 xvz
파이썬 2.7을 사용하여 확인하고, reciprocal_smallest_distance를 설치합니다
CD를 reciprocal_smallest_distance 버전
파이썬 setup.py 설치
Othologs을 찾기 RSD를 사용하여
다음 예제 명령은 rsd_search를 실행하는 주요 방법을 보여줍니다. rsd_search의 모든 호출이 두 개의 게놈에 대한 FASTA 형식의 시퀀스 파일의 위치를 지정해야합니다, 쿼리 및 주제 게놈을했다. 그들의 순서는 임의이지만 --ids 옵션을 사용하는 경우, ID는 쿼리 게놈에서 온해야합니다. 또한 RSD 알고리즘에 의해 발견 된 orthologs의 결과를 기록 할 파일을 지정해야합니다. 출력 파일의 형식은 한 줄에 하나의 ortholog가 포함되어 있습니다. 각 줄은 시퀀스 사이 (codeml에 의해 계산) 질의 시퀀스의 ID, 제목 순서 ID 및 거리가 포함되어 있습니다. 선택적으로 --ids 옵션을 사용하여 ID를 포함하는 파일을 지정할 수 있습니다. 그런 다음 RSD는 그 ID에 대한 orthologs를 검색합니다. --divergence 및 --evalue를 사용하면 기본값에서 서로 다른 임계 값을 사용하는 옵션이 있습니다.
rsd_search, rsd_blast, 또는 rsd_format을 실행하는 방법에 대한 도움을받을 수 :
rsd_search -h
rsd_blast -h
rsd_format -h
기본 발산 evalue 임계 값을 사용하여 쿼리 및 주제 게놈의 모든 시퀀스 사이의 orthologs 찾기
rsd_search -q 예 / 유전체 / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject 게놈 = 예 / 유전체 / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
몇 가지 기본이 아닌 발산 evalue 임계 값을 사용하여 orthologs 찾기
rsd_search -q 예 / 유전체 / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject 게놈 = 예 / 유전체 / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0.2 1E-20 --de 0.5 0.00001 --de 0.8 0.1
그것은 폭발 FASTA 파일을 포맷하거나 rsd_search 당신을 위해 그것을 않기 때문에 BLAST 안타 계산 할 필요가 없습니다.
당신이 특히 큰 게놈를 들어, 같은 게놈에 대한 rsd_search 여러 번 실행하려는 경우, 당신은 BLAST 안타 미리 계산에 FASTA 파일과 rsd_blast을 사전 형식화하는 rsd_format를 사용하여 시간을 절약 할 수 있습니다. rsd_blast를 실행하는 경우, 당신은 rsd_search에 환원하고자하는 가장 큰 evalue 임계 값으로 대규모로 --evalue를 사용해야합니다.
여기에 장소에 FASTA 파일 한 쌍의 형식을 지정하는 방법입니다 :
rsd_format -g 예 / 게놈 / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g 예 / 게놈 / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
그리고 여기, FASTA 파일을 포맷 (이 경우에는 현재 디렉토리)를 다른 디렉토리에 결과를 넣어하는 방법이다
rsd_format -g 예 / 게놈 / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa의 -d.
rsd_format -g 예 / 게놈 / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa의 -d.
여기에 앞으로 계산하고 폭발 안타 (기본 evalue 사용) 반전하는 방법입니다 :
rsd_blast -v -q 예 / 유전체 / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject 게놈 = 예 / 유전체 / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-안타 q_s.hits --reverse-명중 s_q.hits
여기에 앞으로 계산하는 방법이며, 역 폭발은 이미 폭발 용으로 포맷 된 게놈과 기본이 아닌 evalue를 사용하여, rsd_search 안타
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject 게놈 = Mycobacterium_leprae.aa
--forward-안타 q_s.hits --reverse-명중 s_q.hits
0.1 --evalue --no-형식
이미 폭발 용으로 포맷 된 모든 쿼리의 순서 및 유전체를 사용하여 대상 게놈 사이의 orthologs 찾기
rsd_search -q Mycoplasma_genitalium.aa
--subject 게놈 = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-형식
모든 쿼리의 순서 및 이미 계산 된 안타를 사용하여 대상 게놈 사이의 orthologs를 찾을 수 있습니다. 폭발 히트 이미 계산 된 이후 게놈 폭발 포맷 할 필요가 없기 때문에 --no-형식이 포함되어 있는지 확인합니다.
rsd_search -v --query 게놈 Mycoplasma_genitalium.aa
--subject 게놈 = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-안타 q_s.hits --reverse-명중 s_q.hits --no-형식
쿼리 게놈의 특정 시퀀스 orthologs를 찾을 수 있습니다. 계산 속도를 높일 수 있습니다 --no-폭발 캐시를 사용하여 단 몇 시퀀스 orthologs을 발견하십시오. YMMV.
rsd_search -q 예 / 유전체 / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject 게놈 = 예 / 유전체 / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o 예 / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
예 / Mycoplasma_genitalium.aa.ids.txt --no-폭발 캐시를 --ids
출력 형식
Orthologs는 rsd_search의 --outfmt 옵션을 사용하여 여러 가지 다른 형식으로 저장할 수 있습니다. 기본 형식, -1 --outfmt, Uniprot DAT 파일에서 영감을 3 --outfmt을 의미 orthologs의 세트는 엔드 라인을 가지고, 다음, 매개 변수 행으로 시작하는 0 개 이상의 ortholog 라인을 가지고있다. parametes 쿼리 게놈 이름, 게놈 주체 이름, 발산 임계 값 및 임계 evalue이다. 각 ortholog 쿼리 시퀀스 ID, 주제 시퀀스 ID 및 최대 가능성 거리 추정치를 나열 단일 행에있다. 이 형식은 아무 orthologs와 매개 변수의 하나의 파일에 여러 매개 변수 세트 orthologs뿐만 아니라 세트를 나타낼 수 있습니다. 여러 발산 evalue 임계 값을 지정할 때 그러므로 rsd_search 함께 사용하기에 적합하다.
여기에는 orthologs가없는 하나의 2 매개 변수 조합을 포함하는 예는 다음과 같습니다
PA tLACJO tYEAS7 t0.2 t1e-15
또는 tQ74IU0 tA6ZM40 t1.7016
또는 tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
RSD의 원래 형식은 1 --outfmt, 이전 버전과의 호환성을 위해 제공됩니다. 각 행은 대상 시퀀스 ID, 질의 시퀀스 ID 및 최대 우도 거리 추정치로 표현 ortholog가 포함되어 있습니다. 그것은 단지 파일에 orthologs의 단일 세트를 나타낼 수 있습니다.
예 :
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
또한 이전 버전과의 호환성을 위해 제공 질의 시퀀스의 ID 열을 제외한 원래 RSD 형식처럼 범인 검거에 의해 내부적으로 사용되는 형식은 (http://roundup.hms.harvard.edu/), 주제 시퀀스 ID 전에이다.
예 :
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
이 요구 사항 :
이 파이썬
NCBI의 BLAST 2.2.24
PAML 4.4
Kalign 2.04
댓글을 찾을 수 없습니다