Kérdés:
Mi az az index fastq fájl (minta_I * .fastq.gz), amelyet az Illumina páros végű futtatásainak demultiplexelése során generálnak?
conchoecia
2018-10-09 00:20:26 UTC
view on stackexchange narkive permalink

Mi az az index fastq fájl, amely néhány Illumina szekvenáló adatkészlethez tartozik? (A samplename_I * .fastq.gz fájl.)

Például nemrégiben kaptam néhány 10X Chromium olvasmányt két, ugyanazon a sávon szekvenált könyvtárhoz. Ez egy 2x150-es szekvenciafuttatás volt, ezért két fastq fájlnak kell lennie. A szekvenáló központ demultiplexelte a könyvtárakat, és két külön könyvtárat generált - mindegyik könyvtárhoz egyet.

  • Minden könyvtárban három fastq fájl található:
    • Mysample_I1_001.fastq.gz
    • Mysample_R1_001.fastq.gz
    • Mysample_R2_001.fastq.gz

Tudom, hogy az R1 fastq fájl tartalmazza az előreolvasott és az R2 gyors fájl fordított olvasmányokat, de mi az indexfájl? Az első néhány szekvencia nem egyezik a könyvtár 10X indexével ( ACATTACT , CAGCCCAC , GGCAATGG , TTTGGGTA ) .

  >bioawk -cfastx '{print ($ seq)}' Saját minta_I1_001.fastq.gz | headNTTGGGTANGCAATGGNAGCCCACNAGCCCACNCATTACTNCATTACTNGCAATGGNAGCCCACNTTGGGTANAGCCCAC  
Nem ismerek tízszeres Chromium szoftvert, de ismerem az egycellás csővezetéküket, és sok verzióval ezelőtt a szoftver arra számított, hogy az olvasási indexek külön fájlban lesznek, magukkal az olvasásokkal együtt. A Cellranger azóta megváltoztatta a csővezetéküket, így már nem akarja ezeket, de aki átadta neked a fájlokat, láthatta, hogy ez egy 10xGenomics protokoll, és úgy döntött, hogy megadja neked az ilyen indexeket, hátha szükséged van rájuk,
Annak érdekében, hogy megérje, a 10X nem igényli az indexfájlokat bemenetként (csak demultiplexált mintákat adhat neki), és az Illumina szoftvere alapértelmezés szerint nem fogja előállítani ezeket az indexfájlokat. Ezenkívül legfeljebb 2 indexfájlja lehet az Illumina adatokhoz (bár általában nem, ha szabványos 10X könyvtárakat készít).
Három válaszokat:
conchoecia
2018-10-09 00:20:26 UTC
view on stackexchange narkive permalink

tldr - Az I * .fastq.gz fájl tartalmazza az olvasott indexsorokat.

hosszú magyarázat

Az Illumina a bcl2fastq code nevű programot használja. > a demultiplex szekvenálás futtatásához.

Ez a szoftver felvesz egy listát a mintákról és a hozzájuk tartozó indexekről, és ezeket a szekvenciákat felhasználva mintánként egy vagy több fastq fájlt készít, amelyeket egy vagy két index szekvencia köt össze a szekvenáló molekula mindkét vége ( i5 és i7 indexek, a HiSeq-et lásd a 6. oldalon).

Az Illumina szekvenálás azonban nem tökéletes, és néha vannak hibák az index olvasásakor sorrend. Például ez az index, a CAGCCCAC könnyen olvashatósági hibákat okozhat a A ban, sok C s közé szorítva: CAGCCCAC -> CAGCCCCC kód>.

Ahelyett, hogy az összes olvasást indexelési szekvenciahibákkal dobná ki, a bcl2fastq program olyan olvasásokat tartalmaz, amelyek jól láthatóan származnak az adott minta valódi indexéből, mindaddig, amíg nincs átfedés egy másik mintával.

A fenti példában a mysample négy indexe a következő volt: ACATTACT , CAGCCCAC , GGCAATGG , TTTGGGTA . Ha megnézzük a Mysample_I1_001.fastq.gz fájl összes indexszekvenciáját, akkor látni fogjuk, hogy a négy helyes indexű szekvenciák valóban a legelterjedtebbek, de vannak olyan olvasások is, amelyek indexekkel rendelkeznek a helyes indexekből származó szekvenálási hibák.

  bioawk -cfastx '{print ($ seq)}' Saját minta_I1_001.fastq.gz | \ sort | uniq -c | sort -k1 -nr | létszám index source41362311 CAGCCCAC True index37209190 GGCAATGG True index36863213 ACATTACT Igaz index 33674467 TTTGGGTA Igaz index 1140358 NAGCCCAC CAGCCCAC 1026099 NGCAATGG GGCAATGG 1016754 NCATTACT ACATTACT 933342 NTTGGGTA TTTGGGTA 119626 TTTGGGGA TTTGGGTA 98657 GTTGGGTA TTTGGGTA 96625 GGCAATGA GGCAATGG  
rrr
2019-02-12 06:06:30 UTC
view on stackexchange narkive permalink

Eltartott egy ideig, mire rájöttem, hogy az „ index ” ugyanaz, mint a „ vonalkód ”, amely megmondja, hogy az egyes szekvenciák melyik mintából származnak egy multiplexen fuss.

Ha az adatait nem demultiplexálják (az egyes R1.fastq és R2.fastq fájlok több mintára vonatkozó információkat tartalmazzák ), akkor ezt az I1.fastq fájlt használja az egyes szekvenciák mintához való hozzárendeléséhez (azaz a "demultiplex" -hez). A táblázatot, amely mely minta vonalkódot / indexet tartalmazza, gyakran "leképezési fájlnak" nevezik.

Ha az adatait már demultiplexeltük vel (különálló R1.fastq és R2.fastq fájlok mindegyik mintához), akkor nem igazán van rá szükség ... azonban egyesek az indexszekvenciákat használják a minőségellenőrzés munkafolyamataiban. Például ez a Wright és Vetsigien BMC Genomics című tanulmánya: "Az Illumina index minőségi szűrése olvassa el a mérsékelt beszélgetést": https://doi.org/10.1186/s12864-016-3217-x

Az index kifejezés szinte mindig arra a 8 bp-os szekvenciára vonatkozik, amelyet az Illumina gép olvas, hogy azonosítsa az egyes olvasottak származási könyvtárát, míg a vonalkód kifejezés magában az R1-ben vagy R2-ben is jelenthet bizonyos szekvenciát, amelyet a felhasználó hozzáadva a címke eredetéhez - például egy adott sejtből vagy specifikus amplikonból származnak.
Igen, egy 10xGenomics egycellás futtatás kapcsán a "vonalkód" a cella vonalkódot jelenti, ami egyáltalán nem ugyanaz, mint a minta index.
3 fájlt kaptam, amelyek pontosan megegyeznek az eredeti poszter felsorolt ​​fájlneveivel, azzal a különbséggel, hogy az adataimat egyértelműen még nem demultixelték. Az indexfájlom arra utalt, amit a leképezési fájlom "SampleBarcode" néven felsorolt. * Minden bizonnyal lehetséges, hogy az egysejtű adatok formátuma eltér. * Szemszögből nézve az adataim egy multiplexált 16S rRNS gén amplikon miSeq futtatásból származnak. Vonalkódjaim azonosították, hogy az egyes szekvenciák melyik mintából származnak, és ezek egy 12 bp-os szekvenciák voltak, amelyek a forward primerhez voltak kötve (tehát nem kettős indexelésűek voltak). Ezt a protokollt használja a Earth Microbiome Project.
Jonathan Moore
2019-02-12 16:13:59 UTC
view on stackexchange narkive permalink

Pár évvel ezelőtt tízszeres adatokat néztem meg, és akkor a protokolljuk négy külön indexet használt kiegyensúlyozott indexszekvenciákkal a változatosság könyvtárba történő bevezetésének módjaként. Ez a négy index elkülönült az egyes sejtek jelölésére használt egyedi oligóktól. Egy egyedi minta esetén össze kell kapcsolnia mind a négy különálló index olvasását, így néz ki az adataiban. Itt van egy rövid magyarázat: https://support.10xgenomics.com/single-cell-gene-expression/index/doc/specifications-sample-index-sets-for-single-cell-3



Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 4.0 licencért, amely alatt terjesztik.
Loading...