Körülbelül 200 rövid (6-12 bp hosszúságú) nukleotid-motívumom van az emberi genomból, és megpróbálom megtudni, mennyire konzerváltak a gerincesek között.
Arra gondoltam, hogy minden motívumhoz ágyfájlt kell készítenem, amely felsorolja az emberi genom összes előfordulását. Innen az ágyakat egy PhastCons pontszámú nagyméretű fájlokba tudtam térképezni (lényegében a PhastCons szoftver fordítottját csinálva). Ez a legjobb megközelítésnek tűnik?
Elakadtam a motívumoktól az ágyfájlokig tartó lépésnél. Megpróbáltam a BLAST használatával megtalálni a motívumok minden előfordulását, de rövidségük problémákat okoz.
Megpróbáltam elrontani az e-érték küszöbét, a szó méretét és a szűrő paramétereit, de még mindig nem értem bármilyen találat.
Van megoldás erre a kérdésre, vagy csak át kellene gondolnom a teljes megközelítést?