Kérdés:
Legyen 6–12 bp hosszú DNS-motívum, és próbáljon megőrzési eredményt elérni
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

Körülbelül 200 rövid (6-12 bp hosszúságú) nukleotid-motívumom van az emberi genomból, és megpróbálom megtudni, mennyire konzerváltak a gerincesek között.

Arra gondoltam, hogy minden motívumhoz ágyfájlt kell készítenem, amely felsorolja az emberi genom összes előfordulását. Innen az ágyakat egy PhastCons pontszámú nagyméretű fájlokba tudtam térképezni (lényegében a PhastCons szoftver fordítottját csinálva). Ez a legjobb megközelítésnek tűnik?

Elakadtam a motívumoktól az ágyfájlokig tartó lépésnél. Megpróbáltam a BLAST használatával megtalálni a motívumok minden előfordulását, de rövidségük problémákat okoz.
Megpróbáltam elrontani az e-érték küszöbét, a szó méretét és a szűrő paramétereit, de még mindig nem értem bármilyen találat.

Van megoldás erre a kérdésre, vagy csak át kellene gondolnom a teljes megközelítést?

Valami hasonlót tettem, de a "motívumok" helyett egy jól definiált n-merek listájával, amelyek mindegyike azonos n értékkel rendelkezik. Abban az esetben, ha ez bármilyen segítséget jelenthet, az ágyfájl elkészítéséhez használt kód a következő: A kód nem biztos, hogy szuper memóriával rendelkezik.
Három válaszokat:
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

Abban az esetben, ha csak ACGT van a motívumokban

A rövid motívumok úgy hangoztatják, mintha kmer számlálót keresne. Választhatja a meglévő szoftver használatát, vagy elkészítheti sajátját.

  1. A meglévő szoftver használata lehet a legegyszerűbb út. Egy 2014-es régebbi bejegyzés valószínűleg első ötletet ad neked, mi van ott: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Ne feledje, hogy néhány ott említett algoritmusnak van utódja, ezért érdemes kicsit ásni. A kmer kis mérete miatt a legtöbb felhasználható lesz az Ön igényeinek megfelelően.
  2. Mivel a km-esek maximális mérete viszonylag kicsi (12 nt-nek 24 bitre van szüksége, azaz max. 16,7 millió bejegyzésre van szüksége a kmer táblázatában) képesnek kell lennie arra, hogy könnyedén gördítsen saját kmer-számolást bármilyen tetszőleges nyelven és manapság bármely számítógépen. A km-eseknek szóló Wikipedia bejegyzés pszeudokód szakasza első útmutatásokat ad ehhez. Lehet, hogy egy kicsit több munka, de talán rugalmasabb az igényeitől függően. >

    Nem ismerek olyan meglévő szoftvert, amelyik elvégezné, amire szüksége van. El tudnám képzelni, hogy a rövid motívumok reguláris kifejezések használatát teszik lehetővé az ilyen típusú keresésekhez, de lehet, hogy tévedek. Ennek tesztelésének egyszerűnek kell lennie egy egyszerű szkriptben, mivel az összes főbb programozási nyelv rendelkezik modulokkal vagy könyvtárakkal a RE-k számára. Még akkor is, ha pár órát vesz igénybe az adathalmaz futtatása, ez elegendő lenne az egyszeri számításhoz.

rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

A motívumok beolvasásához egy genomban (vagy adatbázisban) a FIMO alkalmazást használom, amely megadja Önnek ezeknek a motívumoknak a pontos helyét a genomban.

Ha megvan a helye , az UCSC-ből származó phastCons bigiwig segítségével kiszámíthatja az alapszintű védelmi pontszámokat. Ne feledje azonban, hogy a phastCons pontszámok ki vannak simítva az ablakok között, és nem biztos, hogy ez a legjobb mutató, ha megpróbálja összehasonlítani a motívumillesztési helyek megőrzési szintjét az őket kísérő szekvenciákkal.

Nemrég írtam egy csomagot erre, beleértve a de novo motívum felfedezését. Előfordulhat azonban, hogy túlterheli a felhasználási esetet.

Korábban már használtam a FIMO-t, de a motívumok összehasonlításához a PWM-ekhez (a JASPAR-tól). Lehet, hogy néma kérdés, de vajon elég könnyű összehasonlítani egy genommal, nem pedig a PWM-ek adatbázisával?
@EricBrenner Egy sorrendfájlt egyszerűen feltölthet a webes verzióba.
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

Ami a transzkripciós faktor kötőhelyeket illeti, tanulmányainkban bázisonként phyloP konzervációs adatokat használtunk a simított phastCons pontszámok helyett.

A BEDOPS bedmap segítségével több, párnázott kötőhelyen (BED-formátumban) térképezzük fel a pontszámokat egy adott motívum modellnél. A phyloP pontszámok az UCSC goldenpath-ból nyert WIG fájlok, amelyeket a wig2bed segítségével konvertáltak BED-be.

hőtérkép vagy összesítve a motívum modell átlagos bázisonkénti megőrzésének meghatározásához.

Míg a TF-kötő helyek veleszületetten magas információtartalmat és ezért magas konzerváltságot mutatnak, a mátrixokat tovább lehet rendezni a ChIP-seq vagy a DNaseI-seq tag sűrűségének ponttérképei alapján.

Ez elősegítheti az érdekes, alacsony zajszintű, magas jelű minták szűrését, és akkor hasznos, ha a mátrix ablaka van, és az ablak alacsony információtartalmú régiókat tartalmaz, néhány fő, nagy információtartalmú maradékkal a fő motívumon kívül - mint például a CTCF esetében.



Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...