A (3) ezen az oldalon sok hivatkozás található a minta / motívumkereső eszközökhöz. Az oldalon található YMF linken keresztül rátaláltam a Washingtoni Egyetem Motif Discovery szakaszára. Ezek közül a vetítés tűnik az egyetlen letölthető eszköznek. Érdekesnek tartom, hogy ezek az eszközök mennyi idősek; talán a mikro-rays és az NGS bevezetése feleslegessé tette őket.
A (2) alproblémád hasonlónak tűnik ahhoz a problémához, amely a Nippostrongylus brasiliensis genomszekvenciákkal van, ahol Szeretnék olyan nagyon magas homológiájú régiókat találni (500 bp és 20 kb közötti vagy annál hosszabb, 95-99% -ban hasonló), amelyek az egész genomban megismétlődnek. Ezek a szekvenciák megölik az összeállítást.
Ezeknek a régióknak a megtalálásának fő módja az, ha megnézem az összeállított genomhoz leképezett hosszú nanorészecskék olvasási lefedettségi diagramját (GraphMap vagy BWA használatával). Bármely régió, amely lényegesen magasabb, mint a medián lefedettség, valószínűleg megosztott ismétlésekkel rendelkezik.
Korábban már játszottam azzal, hogy az olvasmányokat kisebb méretűre aprítottam, ami jobban működik, ha olyan kisebb ismétlődő régiókat ütünk meg, amelyek ilyenek a legtöbb olvasás kis hányada soha nem kerül feltérképezésre az összes ismétlődő helyen. Egy darabig írtam a saját szkriptemet, hogy összevágjam az olvasmányokat (más célból), ami egy FASTA / FASTQ fájlt állít elő, ahol minden olvasás pontosan egyforma. Valami ismeretlen okból időt szántam arra, hogy a szkriptet "megfelelően" dokumentáljam a POD használatával, ezért itt egy rövid összefoglaló:
A bemeneti FASTA fájl összes szekvenciáját azonos hosszúságúra konvertálja. A célhossznál rövidebb szekvenciákat eldobják, és a célhossznál hosszabb szekvenciákat egymást átfedő részekre bontják, amelyek a teljes tartományt lefedik. Ez előkészíti a szekvenciákat egy átfedéses-konszenzusos összeállítóban való használatra, amely állandó hosszúságú szekvenciákat igényel (például Edena).
És itt van a szintaxis:
$ ./normalise_seqlengths.pl -hHasználat:
./normalise_seqlengths.pl <reads.fa> [opciók] Opciók: -help Csak ezt a súgó üzenetet jeleníti meg -fraglength Cél töredék hossza (alap-párokban, alapértelmezett 2000) -overlap Minimális átfedési hossz (alap-párokban, alapértelmezett 200) -rövid Tartson rövid szekvenciákat (rövidebb, mint a fraglength)