Nem hiszem, hogy létezik olyan módszer, amely a nyers hosszú olvasások használatával becsülné meg a genom méretét.
A nyers beolvasások alapján a genom méretének becslése úgy történik, hogy egy modellt illesztenek a kmer spektrumokhoz (például Genomoszkóp). A hosszú olvasásokból felépített kmer-spektrumok valóban zavarosak a hosszú olvasások magas hibaaránya miatt. Ez meglehetősen megnehezíti a modell felszerelését. Ezek a módszerek kis hibaarányt feltételeznek. Ha a hibaarány olyan magas, mint 0,1 (ami normális a hosszú olvasásoknál), akkor annak valószínűsége, hogy egy 23 bázisú kmer helyes, ~ 8%. Ez azt jelenti, hogy ha a lefedettség 100x, akkor csak ~ 8x homozigóta km-es lenne az igazi genomi km-es, és nagyon valószínű, hogy a szekvenálási hibák, a heterozigóta km-esek és a homozigóta km-esek kmer csúcsai csak összeolvadnak.
El tudom képzelni, hogy ha a lefedettsége őrülten magas lenne (például 600x vagy több), akkor a kmer spektrumok elkülöníthetnék a hibákat és a genomi km-eket. Megpróbálhatja csökkenteni a kmer méretét a helyes km-esek arányának növelése érdekében.
Egy másik lehetőség az lenne, hogy egy olyan trükköt használnának, amellyel szilárd km-eket állítottak elő genom összeállításához általánosított de brujin-grafikon segítségével zajos olvasmányok. Talán jobb lenne egy pillantást vetni az assembler újabb verziójára, amelyet Flye -nek hívnak.
De hogy őszinte legyek, azt hiszem, sokáig olvasom, egy genom az összeállítás sokkal megbízhatóbb módszer a genom méretének előrejelzésére, mint bármelyik kmer trükk. Egyszerűen összeállítanám a genomot, újrapapíroznám az olvasmányokat, ellenőrizném a lefedettség egységességét és következtetnék rá.
- szerkesztés -
Megpróbáltam átfogó értékelést találni a szerelvényméretekről a genomméretekhez képest, de nem sikerült, ezért csak két példát ellenőriztem, egy nagyot, egy kicsiet, és mindkettő elég jól egyezik. Az Ammopiptanthus nanus t 823,74 Mb-ra állítottuk össze, míg a kmer becslés 889 Mb volt ( ref). A Plasmodium falciparum -ot 23,5 Mb -ra állították össze, míg az eredeti genomméret-becslés 22,8 Mb. Tudom, hogy ez csak kettő, de jó ok arra is, hogy azt gondoljuk, hogy a genom mérete ésszerű lesz, adjon hozzá további példákat.
Ha aggódna az összeállítás szennyeződése miatt, akkor először a szennyeződés észlelésének egyik módszerével futtathatja (például Blobology).