becsülje meg a genom méretét: a PacBio kmer alapú megközelítése olvasható

Kérdés:

becsülje meg a genom méretét: a PacBio kmer alapú megközelítése olvasható

aechchiki

2018-07-23 12:19:13 UTC

view on stackexchange narkive permalink

Tud valaki javasolni szoftvert / módszert a kmer elemzésére a PacBio reads (RSII) segítségével?

Valami hasonló a Medúza -hoz, amit egy szép oktatóanyagban láttam - de alkalmasnak kell lennie hosszú, zajos olvasásokra. Lehetséges, hogy kmercounterexact a BBMapToolsból is, de ismét bonyolult a hosszú, zajos olvasásokkal.

A legközelebbi megoldás, amit megtalálhattam, a genom megbecsülése volt méret az átfedés statisztikáiból (a nyers beolvasások esetében a hibát kijavították az előre összeállított olvasásokkal, vagy a nyers olvasások leképezésével az összeszedett folytatásokra): li>

majd ábrázolja az előre összeállított olvasási átfedés hisztogramját.

Mit gondol erről a megközelítésről?

Szeretném használni ezt a kmer elemzést becsülje meg a genom méretét, de egyelőre nem sok mindent találtam. Nincs társam, akit Illumina olvas - ha igen, akkor kipróbálhatnám a Carvalho és mtsai által javasolt megközelítést. 2016

Az & házon belüli genom-együtteseit (Canu) olvastam ugyanazon gombafaj különböző izolátumaiból összehasonlítás céljából.

Kettő válaszokat:

Kamil S Jaron

2018-07-23 16:12:42 UTC

view on stackexchange narkive permalink

Nem hiszem, hogy létezik olyan módszer, amely a nyers hosszú olvasások használatával becsülné meg a genom méretét.

A nyers beolvasások alapján a genom méretének becslése úgy történik, hogy egy modellt illesztenek a kmer spektrumokhoz (például Genomoszkóp). A hosszú olvasásokból felépített kmer-spektrumok valóban zavarosak a hosszú olvasások magas hibaaránya miatt. Ez meglehetősen megnehezíti a modell felszerelését. Ezek a módszerek kis hibaarányt feltételeznek. Ha a hibaarány olyan magas, mint 0,1 (ami normális a hosszú olvasásoknál), akkor annak valószínűsége, hogy egy 23 bázisú kmer helyes, ~ 8%. Ez azt jelenti, hogy ha a lefedettség 100x, akkor csak ~ 8x homozigóta km-es lenne az igazi genomi km-es, és nagyon valószínű, hogy a szekvenálási hibák, a heterozigóta km-esek és a homozigóta km-esek kmer csúcsai csak összeolvadnak.

El tudom képzelni, hogy ha a lefedettsége őrülten magas lenne (például 600x vagy több), akkor a kmer spektrumok elkülöníthetnék a hibákat és a genomi km-eket. Megpróbálhatja csökkenteni a kmer méretét a helyes km-esek arányának növelése érdekében.

Egy másik lehetőség az lenne, hogy egy olyan trükköt használnának, amellyel szilárd km-eket állítottak elő genom összeállításához általánosított de brujin-grafikon segítségével zajos olvasmányok. Talán jobb lenne egy pillantást vetni az assembler újabb verziójára, amelyet Flye -nek hívnak.

De hogy őszinte legyek, azt hiszem, sokáig olvasom, egy genom az összeállítás sokkal megbízhatóbb módszer a genom méretének előrejelzésére, mint bármelyik kmer trükk. Egyszerűen összeállítanám a genomot, újrapapíroznám az olvasmányokat, ellenőrizném a lefedettség egységességét és következtetnék rá.

- szerkesztés -

Megpróbáltam átfogó értékelést találni a szerelvényméretekről a genomméretekhez képest, de nem sikerült, ezért csak két példát ellenőriztem, egy nagyot, egy kicsiet, és mindkettő elég jól egyezik. Az Ammopiptanthus nanus t 823,74 Mb-ra állítottuk össze, míg a kmer becslés 889 Mb volt ( ref). A Plasmodium falciparum -ot 23,5 Mb -ra állították össze, míg az eredeti genomméret-becslés 22,8 Mb. Tudom, hogy ez csak kettő, de jó ok arra is, hogy azt gondoljuk, hogy a genom mérete ésszerű lesz, adjon hozzá további példákat.

Ha aggódna az összeállítás szennyeződése miatt, akkor először a szennyeződés észlelésének egyik módszerével futtathatja (például Blobology).

rendben, az összeszerelés során megszerezhetem a genom méretét, amint arról már volt szó. köszönöm a közreműködést

A genom-összeállítás felhasználása a genom méretének becsléséhez nem megbízható, mivel lehetséges szennyeződés okozhat összeállítási hibákat, egyes haplotípusok összeomlásának lehetséges kudarcát vagy következetlen lefedettségből származó összeállítási hibákat.

@conchoecia Egyetértek, de a szennyeződés problémája a kmer spektrumelemzésben is szerepel. De tapasztalatom szerint az eddig látott, sokáig olvasott szerelvények meglehetősen közel álltak az áramlási citometria becsléséhez és összhangban voltak a kmer spektrumelemzéssel. Végzek még néhány kutatást. Van valamilyen példád, ahol a szerelvény mérete nagyon elfogult volt?

@conchoecia jobb?

Helló, @KamilSJaron,, az egyetlen figyelmeztetés, amelyet arra gondoltam, hogy mind a canu, mind a FALCON nem kezeli jól a haploid szerelvényeket, ha az állat diploid és erősen heteryzygóta, mint például a FALCON esetében több mint 5%. Például olyan ctenophore genomokat állítok össze, amelyeknek a magas heterozigotitásuk miatt rendszeresen összeomlatlan haplotípusok vannak. Ennek eredményeként a genom együttes mérete megközelítőleg kétszerese az Illumina által leolvasott kmer spektrumú hisztogram alapján elvárhatónak. A legtöbb ember valószínűleg nem dolgozik nagy heterozigóta állatokkal, de fontos kiemelni. Ez minden!

Ah, megfogtalak, ott voltam. Összegyűjtöttem az amphioxus genomot, amely rendkívül heterozigóta. Végül beállítottam a paramétereket, így mindkét haplotípus külön-külön összeállt és nagyon jól működött (pontosan összeállítva a diploid genom méretét)

Tane

2020-04-19 23:34:19 UTC

view on stackexchange narkive permalink

Nemrég találkoztam Wang et al. (2020), amely módszer a kmerfreq eszközt használja a hibajavított hosszú olvasásokon (például Canu, FLAS vagy LoRMA segítségével generálva). Ígéretes megközelítésnek tűnik.

ⓘ

Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 4.0 licencért, amely alatt terjesztik.

about - legalese

Loading...