reciprocal_smallest_distance jest parami, które wykorzystuje algorytm orthology globalne dopasowanie sekwencji i maksymalna odległość między ewolucyjną prawdopodobieństwa sekwencji dokładnie wykrywa orthologs między genomów.
Instalacja Z tarballa
Pobierz i rozpakuj najnowszej wersji z github:
cd ~
curl -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Tar xvz
Zainstaluj reciprocal_smallest_distance, upewniając się, aby użyć Python 2.7:
cd reciprocal_smallest_distance-WERSJA
python setup.py install
Korzystanie RSD znaleźć Othologs
Poniższe przykładowe polecenia wykazać główne sposoby, aby uruchomić rsd_search. Każde wywołanie rsd_search wymaga określania lokalizacji pliku w formacie FASTA sekwencji dwóch genomów, zwany zapytanie i podlega genomów. Ich kolejność jest dowolna, ale jeśli używasz opcji --ids, identyfikatory muszą pochodzić z genomu zapytania. Należy również określić plik do zapisu wyników orthologs znalezionych przez algorytm RSD. Format pliku wyjściowego zawiera jeden ortolog w wierszu. Każda linia zawiera sekwencję zapytań, z zastrzeżeniem id sekwencji id i dystans (obliczonej przez codeml) pomiędzy sekwencjami. Opcjonalnie można określić plik zawierający identyfikatory przy użyciu opcji --ids. Następnie RSD będą szukać tylko dla tych identyfikatorów ortologi. Korzystanie --divergence i --evalue, masz możliwość korzystania z różnych progów od domyślnych.
Uzyskaj pomoc na temat uruchomienia rsd_search, rsd_blast lub rsd_format:
rsd_search -h
rsd_blast -h
rsd_format -h
Znajdź orthologs między wszystkich sekwencji w zapytaniu i podlegających genomów, używając domyślnej rozbieżności i Evalue progi
przykłady rsd_search -q / genomy / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject genomu = przykłady / genomów / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Znajdź orthologs stosując kilka niestandardowych rozbieżności i Evalue progi
przykłady rsd_search -q / genomy / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject genomu = przykłady / genomów / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0,2 1e-20 --de 0,5 0,8 0,1 0,00001 --de
Nie ma potrzeby formatowania pliku FASTA dla BLAST lub obliczyć BLAST uderza ponieważ rsd_search zrobi to za Ciebie.
Jeśli jednak planowane jest uruchomienie rsd_search wielokrotnie do tych samych genomów, szczególnie w przypadku dużych genomach, można zaoszczędzić czas przy użyciu rsd_format do preformatting pliki FASTA i rsd_blast do precomputing BLAST uderza. Po uruchomieniu rsd_blast, upewnij się, aby skorzystać --evalue tak duży jak największy próg Evalue którą zamierzasz dać rsd_search.
Oto, jak sformatować parę plików FASTA w lokalu:
rsd_format -g przykłady / genomów / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -g przykłady / genomów / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
A oto jak sformatować FASTA plików, kładąc wyniki w innym katalogu (katalog bieżący w tym przypadku)
rsd_format -g przykłady / genomów / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -d.
rsd_format -g przykłady / genomów / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -d.
Oto, jak obliczyć przodu i do tyłu hity strzałowych (domyślny Evalue):
rsd_blast -v -q przykłady / genomów / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject genomu = przykłady / genomów / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward-hity q_s.hits --reverse-hity s_q.hits
Oto, jak obliczyć przodu i wsteczny podmuch uderza w rsd_search, używając genomy, które zostały sformatowane do wybuchu i inny niż domyślny Evalue
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject genomu = Mycobacterium_leprae.aa
--forward-hity q_s.hits --reverse-hity s_q.hits
--no-Format --evalue 0,1
Znajdź orthologs między wszystkich sekwencji w zapytaniu i podlegających genomów korzystających genomy, które zostały sformatowane w wybuchu
rsd_search -q Mycoplasma_genitalium.aa
--subject genomu = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-Format
Znajdź orthologs między wszystkich sekwencji w zapytaniu i podlegających genomów korzystających przeboje, które już zostały obliczone. Zauważ, że --no-format jest włączone, bo od trafienia podmuch zostały już obliczone genomy nie muszą być sformatowane na wybuch.
rsd_search -v --query genomu Mycoplasma_genitalium.aa
--subject genomu = Mycobacterium_leprae.aa
-o Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward-hity q_s.hits --reverse-hity s_q.hits --no-Format
Znajdź orthologs do specyficznych sekwencji w genomie zapytania. Dla znalezienia orthologs dla tylko kilku sekwencji, używając --no-strumieniowo-cache może przyspieszyć obliczenia. Programem.
przykłady rsd_search -q / genomy / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject genomu = przykłady / genomów / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-O przykłady / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids przykłady / Mycoplasma_genitalium.aa.ids.txt --no-strumieniowo-cache
Formaty Wyjście
Ortologi mogą być zapisane w kilku różnych formatów za pomocą --outfmt możliwość rsd_search. Domyślny format, --outfmt -1, odnosi się do --outfmt 3. Zainspirowany Uniprot plików DAT, zestaw orthologs zaczyna się od linii parametrów, a następnie ma 0 lub więcej ortologiem linie, to ma linię końcową. W parametes to nazwa kwerendy genom, z zastrzeżeniem nazwy genom, próg rozbieżności, a próg Evalue. Każdy ortologiem jest w jednej linii z listą sekwencji id zapytania, identyfikator sekwencji przedmiotem i maksymalną szacunkową odległość prawdopodobieństwo. Ten format może reprezentować orthologs dla wielu zestawów parametrów w jednym pliku, a także zestawów parametrów bez żadnych orthologs. W związku z tym nadaje się do wykorzystania z rsd_search, określając wiele rozproszenia i Evalue progów.
Oto przykład zawierający 2 kombinacje parametrów, z których jeden nie posiada orthologs:
PA tLACJO tYEAS7 t0.2 t1e-15
LUB tQ74IU0 tA6ZM40 t1.7016
LUB tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Oryginalny format RSD, --outfmt 1, jest dla wstecznej kompatybilności. Każda linia zawiera ortologiem, reprezentowanymi jako identyfikator sekwencji zastrzeżeniem, zapytania sekwencji id i maksymalnej odległości szacunków prawdopodobieństwa. Może reprezentować tylko jeden zestaw orthologs w pliku.
Przykład:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Przewidziano również wstecznej kompatybilności to format używany wewnętrznie przez Roundup (http://roundup.hms.harvard.edu/), które jest jak oryginalnym formacie RSD, z wyjątkiem kolumny id sekwencji zapytanie id sekwencji przed zastrzeżeniem.
Przykład:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
Wymagania :
- Python
- NCBI BLAST 2.2.24
- PAML 4.4
- Kalign 2.04
Komentarze nie znaleziono