Van egy RNA-seq bam fájlom, és kevés olvasmány zavar engem.
A bam fejléc szerint ez a bam fájl koordináták szerint van rendezve, a tophat használatával jön létre, és a markduplicate lépés nem Kész. De egyes olvasmányok megjelölésre kerülnek, mert a samflag-ban duplikáltak. Ami a legrosszabb, ha picard markduplicate-t futtatok, ezek a PCR duplicate flag be vannak kapcsolva, és nem duplikátumok. Szintén kézzel találtam meg ennek az olvasásnak a duplikátumát (azonos olvasás ugyanazokkal a kezdő és a kezdő pozíciókkal), így a kezdeti jelölés igaznak tűnik.
Tehát a kérdéseim a következők:
Van ötlet, miért ez megtörténik?
A Tophat védjegy megismétlődik? (Nem hinném) És a picard markduplicate
váltja-e az ismétlődő zászlót, ha az olvasások már duplikátumokként vannak megjelölve?
Így néz ki az olvasás a jelölés előtt és után ismétlődő lépés.
Előtt :
C0RTF 1187 17 7579880 255 61M10754N40M = 7579927 10902 CTC ... 0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC .. .
A Markduplicate után:
C0RTF 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC ... 0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC .. .