A PCA-t szabványosítani kell-e a génexpresszió szempontjából?

Kérdés:

Felipe Flores

2018-07-30 23:47:52 UTC

view on stackexchange narkive permalink

Ez egy elméleti / jó gyakorlati kérdés, nem pedig technikai kérdés. Ha a mintákat a génexpressziós adatok PCA-vetületén ábrázolják, kíváncsi vagyok, hogy standard-e (és ha igen, miért) a PC-k központosítása és méretezése.

Azért kérdezem, hogy ebben az esetben a változókat (géneket) ugyanabban a skálában mérik, így nem tudom, szükség lenne-e az adatok központosítására / skálázására.

Egy válasz:

llrs

2018-07-31 12:42:31 UTC

view on stackexchange narkive permalink

Ha a génexpresszió méretarányos és központosított, akkor csökkenti a gének közötti különbséget.

Képzelje el, hogy Önnek van egy A génje, amely általában magasan expresszálódik, és a standard eltérése 500 egység, a B génhez képest, amely nem sok expresszióval rendelkezik, és csak 5-ös szórása van.

A skálázott és a központosított gének egyaránt hozzájárulnak, mivel A általában 10000, B pedig általában 100 egységet fejez ki. Tehát mindkét esetben a szórás az expressziójuk 5% -a. Azt jelenti, hogy az egyik változata ugyanolyan fontos, mint a másikban.

Ha nem méretezik (és nem központosítják), akkor az első A gén jobban hozzájárul a variációhoz, mint a B gén, mert az abszolút számokban az expresszió variációja nagyobb.

Mindkettőt publikációkban használják, de úgy gondolom, hogy inkább a méretarányos és a középre helyezett, mert az első dimenzió "jobban" tükrözi a minták közötti különbségeket. Természetesen mindkettőt megteheti, és kiválaszthatja azt, amelyik jobban megmutatja, mit szeretne.

... másrészt, ha skálázol és középre igazítasz, akkor a 100 expressziójú gén ugyanolyan relevánssá válik, mint egy 10000 expressziójú gén, ami nemkívánatos lehet. Korábban követtem az OP érvelését és a skálázás és a központosítás mellett döntöttem, és log-transzformált expressziós értékeket (TPM vagy RPKM) használtam. van ennek értelme?

@dariober Az általam alkalmazott érvelés az, hogy ha egy gént általában 1000-es expresszálnak, akkor ennek a magas expressziónak szüksége van a működésére, míg a másiknak nem kell olyan magasnak lennie. Tehát miért adnék nagyobb jelentőséget egy génnek, mert több expresszióra van szüksége a sejt életben tartásához? Amit egy PCA-ban szeretnék látni, az a hasonlóságok és különbségek, nem pedig akkor, ha egy gén differenciáltan expresszálódik vagy sem. Arról, hogy mely egységeket kell használni, azt hiszem, egy másik vita, mivel az alkalmazott normalizálás megváltoztatja a minták látszólagos hasonlóságát

ⓘ

Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 4.0 licencért, amely alatt terjesztik.

about - legalese