tldr - Az I * .fastq.gz fájl tartalmazza az olvasott indexsorokat.

hosszú magyarázat

Az Illumina a bcl2fastq code nevű programot használja. > a demultiplex szekvenálás futtatásához.

Ez a szoftver felvesz egy listát a mintákról és a hozzájuk tartozó indexekről, és ezeket a szekvenciákat felhasználva mintánként egy vagy több fastq fájlt készít, amelyeket egy vagy két index szekvencia köt össze a szekvenáló molekula mindkét vége ( i5 és i7 indexek, a HiSeq-et lásd a 6. oldalon).

Az Illumina szekvenálás azonban nem tökéletes, és néha vannak hibák az index olvasásakor sorrend. Például ez az index, a CAGCCCAC könnyen olvashatósági hibákat okozhat a A ban, sok C s közé szorítva: CAGCCCAC -> CAGCCCCC kód>.

Ahelyett, hogy az összes olvasást indexelési szekvenciahibákkal dobná ki, a bcl2fastq program olyan olvasásokat tartalmaz, amelyek jól láthatóan származnak az adott minta valódi indexéből, mindaddig, amíg nincs átfedés egy másik mintával.

A fenti példában a mysample négy indexe a következő volt: ACATTACT , CAGCCCAC , GGCAATGG , TTTGGGTA . Ha megnézzük a Mysample_I1_001.fastq.gz fájl összes indexszekvenciáját, akkor látni fogjuk, hogy a négy helyes indexű szekvenciák valóban a legelterjedtebbek, de vannak olyan olvasások is, amelyek indexekkel rendelkeznek a helyes indexekből származó szekvenálási hibák.

  bioawk -cfastx '{print ($ seq)}' Saját minta_I1_001.fastq.gz | \ sort | uniq -c | sort -k1 -nr | létszám index source41362311 CAGCCCAC True index37209190 GGCAATGG True index36863213 ACATTACT Igaz index 33674467 TTTGGGTA Igaz index 1140358 NAGCCCAC CAGCCCAC 1026099 NGCAATGG GGCAATGG 1016754 NCATTACT ACATTACT 933342 NTTGGGTA TTTGGGTA 119626 TTTGGGGA TTTGGGTA 98657 GTTGGGTA TTTGGGTA 96625 GGCAATGA GGCAATGG

rrr

2019-02-12 06:06:30 UTC

view on stackexchange narkive permalink

Eltartott egy ideig, mire rájöttem, hogy az „ index ” ugyanaz, mint a „ vonalkód ”, amely megmondja, hogy az egyes szekvenciák melyik mintából származnak egy multiplexen fuss.

Ha az adatait nem demultiplexálják (az egyes R1.fastq és R2.fastq fájlok több mintára vonatkozó információkat tartalmazzák ), akkor ezt az I1.fastq fájlt használja az egyes szekvenciák mintához való hozzárendeléséhez (azaz a "demultiplex" -hez). A táblázatot, amely mely minta vonalkódot / indexet tartalmazza, gyakran "leképezési fájlnak" nevezik.

Ha az adatait már demultiplexeltük vel (különálló R1.fastq és R2.fastq fájlok mindegyik mintához), akkor nem igazán van rá szükség ... azonban egyesek az indexszekvenciákat használják a minőségellenőrzés munkafolyamataiban. Például ez a Wright és Vetsigien BMC Genomics című tanulmánya: "Az Illumina index minőségi szűrése olvassa el a mérsékelt beszélgetést": https://doi.org/10.1186/s12864-016-3217-x

Az index kifejezés szinte mindig arra a 8 bp-os szekvenciára vonatkozik, amelyet az Illumina gép olvas, hogy azonosítsa az egyes olvasottak származási könyvtárát, míg a vonalkód kifejezés magában az R1-ben vagy R2-ben is jelenthet bizonyos szekvenciát, amelyet a felhasználó hozzáadva a címke eredetéhez - például egy adott sejtből vagy specifikus amplikonból származnak.

Igen, egy 10xGenomics egycellás futtatás kapcsán a "vonalkód" a cella vonalkódot jelenti, ami egyáltalán nem ugyanaz, mint a minta index.

3 fájlt kaptam, amelyek pontosan megegyeznek az eredeti poszter felsorolt fájlneveivel, azzal a különbséggel, hogy az adataimat egyértelműen még nem demultixelték. Az indexfájlom arra utalt, amit a leképezési fájlom "SampleBarcode" néven felsorolt. * Minden bizonnyal lehetséges, hogy az egysejtű adatok formátuma eltér. * Szemszögből nézve az adataim egy multiplexált 16S rRNS gén amplikon miSeq futtatásból származnak. Vonalkódjaim azonosították, hogy az egyes szekvenciák melyik mintából származnak, és ezek egy 12 bp-os szekvenciák voltak, amelyek a forward primerhez voltak kötve (tehát nem kettős indexelésűek voltak). Ezt a protokollt használja a Earth Microbiome Project.

Jonathan Moore

2019-02-12 16:13:59 UTC

view on stackexchange narkive permalink

Pár évvel ezelőtt tízszeres adatokat néztem meg, és akkor a protokolljuk négy külön indexet használt kiegyensúlyozott indexszekvenciákkal a változatosság könyvtárba történő bevezetésének módjaként. Ez a négy index elkülönült az egyes sejtek jelölésére használt egyedi oligóktól. Egy egyedi minta esetén össze kell kapcsolnia mind a négy különálló index olvasását, így néz ki az adataiban. Itt van egy rövid magyarázat: https://support.10xgenomics.com/single-cell-gene-expression/index/doc/specifications-sample-index-sets-for-single-cell-3