Különbség a CPM és a TPM között, és melyik a későbbi elemzéshez?

Kérdés:

novicebioinforesearcher

2017-08-15 00:51:22 UTC

view on stackexchange narkive permalink

Mi a különbség a TPM és a CPM között az RNA seq adatok kezelésekor?

Milyen mutatókat használna, ha pl.

Fürtözés-elemzés a Hclust függvény használatával, majd a hőtérkép ábrázolása az expressziós szintek, a korreláció és a pca tekintetében mutatkozó különbségek megtalálásához. a TPM-et használja a CPM-mel szemben.

Kettő válaszokat:

Devon Ryan

2017-08-15 02:15:28 UTC

view on stackexchange narkive permalink

A különböző egyenleteket ebben a gyakran idézett Harold Pimental blogbejegyzésben találja meg. Mindenesetre a CPM alapvetően a mélységre normalizált számítás, míg a TPM a hosszúsággal normalizált (majd a többi gén hossz-normalizált értékeivel normalizálódik).

Ha a két választás közül választani kell, akkor általában a TPM-et választja a legtöbb dologra, mivel általában a hosszúság normalizálása hasznos. Valójában valószínűleg log (TPM) -ot szeretne, mivel különben a legjobban kifejeződött génjeiben a zaj mindent meghajt.

adott esetben, ha az adaptereket levágnánk a párosított végsorrendű rna szekvencia adatokról, az eltérő olvasási hosszúságot eredményezne, amint azt fentebb mondjátok: "A TPM hossza normalizált", ez azt jelenti, hogy ezt az olvasási hosszúság különbséget figyelembe veszik?

@novicebioinforesearcher Nem, transzkriptum / génhossz, amely (kissé) korrelál a számlálásokkal, és ezért hajlamos lesz a klaszterezésre, kivéve, ha ésszerű módon kezelik őket.

Rob Patro szintén nagyon jó cikket írt a témáról: http://robpatro.com/blog/?p=235

Konrad Rudolph

2017-08-15 14:45:03 UTC

view on stackexchange narkive permalink

Sem a CPM, sem a TPM nem megfelelő itt, mert egyik sem hajt végre erőteljes keresztminta normalizálást (lásd a Devonhoz kapcsolódó blogbejegyzést).

A DESeq2 két robusztus naplóterület-normalizálási módszert kínál a downstream elemzéshez, a rendszeresített napló ( rlog ) és a varianciát stabilizáló átalakítás ( vst ). A DESeq2 matrica elmagyarázza ezek használatát olyan dolgokhoz, mint a hclust.

Általánosabb megjegyzés: a CPM nem veszi figyelembe az átirat hosszának különbségeit, míg a TPM igen. Ha a választás a TPM és a CPM között van, ezért a TPM-et használnám. Ha azonban csak ugyanazokat az átiratokat hasonlítja össze a kísérletek között, az átirat hossza valójában változatlan, így nem számít (de a CPM még mindig nem jó a keresztkísérletek közötti normalizáláshoz).

Most összezavarodtam, tehát mi a TPM használata, miért állítja elő az ember, és mikor, vagy hol használja? , más szavakkal, mely eszközöket, az RNS-szekvencia elemzését használná a TPM-mel, ha minden a számlálások felhasználásával és a DESeq2-n keresztül történő tolásával járna

Az eszközök azért állítanak elő TPM-eket, mert nem rendelkeznek a minták közötti normalizáláshoz szükséges információkkal (= a többi mintával). Ennek hiányában a TPM a legjobb, amit tehetnek. A TPM hasznos a * mintán belüli * összehasonlításokhoz is: Pontos becslést adhat arról, hogy egy adott mintában mennyi gén expresszálódik egymáshoz képest.

Plz Javíts ki, ha itt tévedek, mivel egy kísérleti tervezéssel különböző sejttípusok különböznek a normál egértől, mondjuk 4 sejttípus (mindegyikből 3 ismétlés), ugyanazon könyvtár előkészítéssel szekvenálva, de különböző időpontokban lehetnek. A cél az lenne, hogy ellenőrizze a sejttípusra jellemző átiratok halmazát, amelyet a TPM segítségével használna, ahol mintha jelentőségi paramétert szeretne hozzáadni (pvalue-ra van szüksége), nyers számláláson alapuló elemzést használna? Azt hiszem, az a zavar, hogy a "kifejezés" szót használjuk. Az emberek a TPM-et használják és kifejezésnek hívják, a nyers számlálást is használják és kifejezésnek hívják

Mindkettő kifejezési becslés, az adatok alapján. A felhasználási esete ésszerűnek hangzik, bár általában inkább a „sejttípus-specifikus átiratokat” szeretném meghatározni a különböző sejttípusok összehasonlításával, nem pedig csak egyetlen minta alapján. Ami azt jelentené, hogy differenciál expressziós elemzést végeznénk.

"Melyik járna differenciál expressziós elemzés végrehajtásával"?

@novicebioinforesearcher Bármely adathalmazon, amelyet összehasonlítani szeretne. Ritkán (ha valaha!) Van értelme leírni egy gént sejttípus-specifikusnak, anélkül, hogy azt mondanánk, hogy „ellentétben ezekkel a többi sejttípussal”. Például egy sejttípus-specifikus gén alacsony szinten expresszálódhat: mindaddig, amíg más sejtekben * teljesen hiányzik *, addig sejttípus-specifikus. Valójában gyakran ez a helyzet. Ezért * nem * jellemezhet sok sejttípus-specifikus gént anélkül, hogy összehasonlítaná a különböző sejttípusokat.

Normalizálva van-e a VST / RLOG az átirat hosszára? Ha nem, akkor lehet hosszúságra normalizált VST / RLOG-ot kapni?

@rmf Nem, nem normalizálódnak az átirat hosszára; mindkét függvény pusztán a számok * eloszlásának * alakját változtatja valami lineárisabbá. Az rlog / vst használatához általában nem fontos az átirat hosszúságának elszámolása. Ugyanakkor alkalmazhat további átalakítást (nevezzük rlog-TMP-nek), ha van olyan alkalmazása, ahol keresztmintára van szükség, valamint mintán belüli normalizált értékekre.

Azt mondaná, hogy rendben van valami olyasmi, mint a (vst / length) * (10 ^ 6) `, és ezt hőtérképekhez használja, ahol valójában egy gén expresszióját szeretném összehasonlítani egy másik génnel.

@rmf Igen, de a hőtérképben egyébként is (gén) soronként méretezed (akár kifejezetten, akár a rajzoló funkció belsőleg végzi az osztást), így az átírás hossza szerinti normalizálás szigorúan nem op.

ⓘ

Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.

about - legalese