Mi a legjobb módszer a filogenetikai fa becslésére> 1000 lókusz és> 100 faj nagy adatállományából

Kérdés:

Mi a legjobb módszer a filogenetikai fa becslésére> 1000 lókusz és> 100 faj nagy adatállományából

roblanf

2017-06-10 08:57:27 UTC

view on stackexchange narkive permalink

Nagymértékű filogenomikus rendeződésem van,> 1000 lókusz (mindegyik lókusz ~ 1000 bp) és> 100 faj. Viszonylag kevés hiányzó adatom van (<10%).

Ezekből az adatokból szeretnék megbecsülni egy maximális valószínűségű filogenetikai fát, minden egyes csomóponton statisztikai támogatási mérőszámokkal.

Számos filogenetikai program állítja, hogy képesek elemezni az adathalmazokat. így (pl. RAxML, ExaML, IQtree, FastTree, PhyML? stb.). Tekintettel arra, hogy nagy szerverhez férek hozzá (512 GB RAM, 56 mag), mik az egyes programok előnyei és hátrányai. Valószínűleg melyik lesz a legpontosabb becslés az ML fáról egy ekkora adatkészlet esetében?

Azt akarja, hogy nézzük át az összes filogenetikai programot, vagy csak azokat, amelyeket felsorolt: RAxML, ExaML, IQtree, FastTree, PhyML (ami még mindig szerintem elég tág). Hogyan méri az ML fa pontosságát?

Érdekel minden vélemény, bizonyíték és hivatkozás az olyan szoftverek közötti összehasonlításokra, amelyek képesek az ilyen nagy dátumokból becsülni az ML fákat. A pontosság mérésének számos módja lehet, ideértve: (i) szimulációból származó bizonyítékokat; (ii) a becsült fák valószínűségi pontszámainak összehasonlítása közös keretben.

A RAxML a goto program. A FastTree problémája az, hogy a pontossága a felhasznált adatkészletekre korlátozódik, vagyis a tiéd lehet, hogy szélsőségesebb.

Egy válasz:

Leo Martins

2017-06-10 16:58:11 UTC

view on stackexchange narkive permalink

Ez a cikk azt állítja, hogy a FastTree majdnem ugyanolyan pontos, mint a RAxML, ugyanakkor sokkal gyorsabb is. Csak arra kell vigyáznia, hogy a FastTree által kimenő támogatási értékek nem bootstrap értékek, hanem a Shimodaira-Hasegawa teszt alapján. (Ezenkívül lásd ezt a megjegyzést arra az esetre, ha nagyon rövid az ága. [ frissítés: Azonban a legutóbbi, alább említett összehasonlító cikk szerint a FastTree elég gyengén teljesített a RAxML-hez vagy az IQ-fához képest.]

Megértettem, csak akkor használja az ExaML-t, ha az adatai túl nagyok ahhoz, hogy az RAxML egyetlen csomópontban kezelje őket. Az ExaML-nek ugyanúgy kell működnie, mint a RAxML-nek, de némi párhuzamosítási költséggel. Valamennyi hatás esetén ugyanazokkal kezelem őket. Nem ismerem a phyML releváns előnyeit a RAxML-mel szemben (számomra könnyebben használható, de nagyon megszoktam a phyML-t).

Nem ismerem az IQ-fát, de annak a szerzők azt állítják, hogy az RAQML-rel vagy a phyML-mel egyidőben is megadva az IQ-fa már gyakrabban talál jobb valószínűségeket (bár alapértelmezés szerint egy kicsit hosszabb ideig tart a konvergálás). E programok közelmúltbeli összehasonlítása mind az egygénes, mind az összefűző analízis során az IQ-TREE-t részesítette előnyben (az RAxML nagyon szoros volt). Lehet, hogy csak SH-szerű teszten keresztül becsüli meg az elágazási támogatást, de nem vagyok biztos benne. [ frissítés: Az IQ-fa 3 támogatási szintet kínál, a normál bootstrapot, az aLRT-t és az ultragyors bootstrap-ot. A részletekért lásd az OP alábbi megjegyzését.]

Mivel azonban kevés hiányzó adatod van, érdemes kipróbálni az egylokuszos fa következtetését, majd génfa-klaszterezést ( treescape a használatával > vagy treeCL), hogy lássa, mennyire terjeszti az adatait, vagy hogy lássa a kiugró értékek eltávolításának hatását, vagy a statisztikai összerendeléshez hasonló ötleteket használjon.

Az Ön által említett legutóbbi összehasonlításban megjegyzem, hogy az RAxML csak akkor teljesített jobban, mint az IQtree, amikor 10 független keresést hajtottak végre ismétlésenként. Tehát az IQtree-t itt is előnyben részesíthetjük, megjegyezve, hogy ésszerű egy csomó független keresést végrehajtani. A FastTree szintén nagyon gyengén teljesített az összes összehasonlításban.

Támogatási intézkedések az IQtree-ben: (i) standard bootstrap; (ii) aLRT (hozzávetőleges valószínűségi arányteszt, ami körülbelül olyan, mintha azt kérdeznénk, hogy egy adott elágazás hossza szignifikánsan> 0); (iii) ultragyors bootstrap (nem ugyanaz, mint egy hagyományos bootstrap, inkább egy hátsó valószínűség, ha jól értettem).

Ne feledje, hogy a program eredményeinek összehasonlítása a modell megválasztásától és az adatok particionálásától is függ. Nem néztem a részleteket, de egyes programok olyan modelleket is megvalósíthatnak, amelyek másokban nem állnak rendelkezésre. Ez lehet a választás kritériuma.

Köszönöm a megjegyzéseket @roblanf, Megtörtént a szabadságom, hogy frissítettem válaszomat ezekkel az információkkal.

vegye figyelembe azt is, hogy a RAxML újonnan kiadott újraszerkesztése elérhető [itt] (https://github.com/amkozlov/raxml-ng). Ötvözi a RAxML és az ExaML legjobb részeit, miközben általában gyorsabb. Azonban a RAxML összes jelenlegi funkciója még nem került bevezetésre.

ⓘ

Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.

about - legalese

Loading...