Kérdés:
Hogyan lehet megszerezni .bed fájlt az összes gén koordinátájával
German Demidov
2017-06-24 16:19:24 UTC
view on stackexchange narkive permalink

Szeretnék beszerezni egy .bed fájlt a gének nevével és kanonikus koordinátáival, valamint szeretnék exonok koordinátáit is. Megkaphatom a listát az UCSC-től, azonban ha az UCSC Genes - knownCanonical - t választom, nem tudom kivonni az exonok koordinátáit. Ha más lehetőségeket használok - annyi transzkripciós izoformának koordinátáit kapom, amennyit észleltünk, miközben csak egy kanonikus formára van szükségem.

Hogyan szerezhetek ilyen BED fájlt?

Tehát, ha két olyan exonnal rendelkezünk, amelyeknek megfelelően van az 1-10. És az 5-15. Pozíciója - milyen koordinátákat szeretne ebben az esetben?
Három válaszokat:
Alex Reynolds
2017-06-24 20:37:01 UTC
view on stackexchange narkive permalink

A Gencode és a BEDOPS segítségével convert2bed:

  $ wget -qO- ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human /release_28/gencode.v28.annotation.gff3.gz \ | gunzip --stdout - \ | awk '$ 3 == "gén"' - \ | convert2bed -i gff - \ > genes.bed  

Az awk utasítást módosíthatja exonok megszerzéséhez, ha a gén -et exon .

BEDOPS: https://github.com/bedops/bedops

Ez egy általam írt válaszon alapul a Biostars-on, amely egy Perl-szkriptet tartalmaz az intronok BED-fájljának létrehozásához gén- és exon-annotációkból: https://www.biostars.org/p/124515/#124522

Nem kell megadni a „file” `-` bemenetet a` gunzip`-hez.
Azok számára, akik szeretnék tudni az utolsó kiadási számot (most 27-nek kell lennie), itt ellenőrizhetik: http://www.gencodegenes.org/releases/current.html. Tehát az első URL-nek a következőnek kell lennie: "ftp: // ftp.sanger.ac.uk / pub / gencode / Gencode_human / release_27 / ​​gencode.v27.annotation.gff3.gz"
A legújabb linknek az `ftp: // ftp.ebi.ac.uk / pub / databases / gencode / Gencode_human / release_28 / gencode.v28.annotation.gff3.gz` legyen, mivel Sanger már nem vesz részt a Gencode-ban.
A On be is töltheti a gff3 fájlt adatkeretként, és az ágyfájlban használt oszlopokat tabulátorral elválasztott fájlként mentheti fejlécek és index nélkül.
Christopher Lee
2017-06-28 21:15:13 UTC
view on stackexchange narkive permalink

Ezeket az információkat valóban az UCSC táblázatböngészőből szerezheti be. Válassza ki az ismertGene elemet elsődleges táblájának, készítsen szűrőt, vegye fel az ismertCanonical elemet csatolt táblaként, amelyen szűrni szeretne, majd a szabad formátumú lekérdezés szakaszban adja meg az "1" -t idézőjelek nélkül. Ezután kattintson a beküldésre, és válassza az Ágy kimenet lehetőséget, ahol kiválaszthatja az "exon plusz" lehetőséget. Ez vezet a teljesítmény, mint a következő:

  CHR1 17368 17436 uc031tla.1_exon_0_0_chr1_17369_r 0 -chr1 29553 30039 uc057aty.1_exon_0_0_chr1_29554_f 0 + CHR 1 30563 30667 uc057aty.1_exon_1_0_chr1_30564_f 0 + CHR 1 30975 31097 0 uc057aty.1_exon_2_0_chr1_30976_f + CHR1 30365 30.503 uc031tlb.1_exon_0_0_chr1_30366_f 0 + CHR1 34.553 35.174 uc001aak.4_exon_0_0_chr1_34554_r 0 -chr1 35276 35481 uc001aak.4_exon_1_0_chr1_35277_r 0 -chr1 35.720 36081 uc001aak.4_exon_2_0_chr1_35721_r 0 -  

további lépésről lépésinformációk, kérjük, ellenőrizze a választ a levelezőlista archívumában (különösen az Exon 1. módszer szakaszában): https://groups.google.com/a/soe.ucsc.edu/d/msg/genome/ BJ-6DlaZNCY / grgGIpuJAwAJ

Felhívjuk a figyelmét arra is, hogy az UCSC több levelezőlistát biztosít támogatásért, ha további kérdése van, kérjük, küldje el ide:

  • Általános kérdések: genome@soe.ucsc.edu
  • Privát adatot érintő kérdések: genome-www@soe.ucsc.edu
  • tüköroldalakat érintő kérdések: genome-mirror@ose.ucsc.edu
juniper-
2017-07-04 21:06:20 UTC
view on stackexchange narkive permalink

Letöltheti az átirat-jegyzetek listáját sík fájlként az UCSC-ből:

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/refGene.txt. gz

Ez nem éppen egy BED fájl, de tartalmaz információkat az összeállítás ismert átiratairól (ebben az esetben hg19):

  585 NR_046018 chr1 + 11873 14409 14409 14409 3 11873,12612,13220, 12227,12721,14409, 0 DDX11L1 unk unk -1, -1, -1,585 NR_024540 chr1 - 14361 29370 29370 29370 11 14361,1496715 , 17232,17605,17914,18267,24737,29320, 14829,15038,15947,16765,17055,17368,17742,18061,18366,24891,29370, 0 WASH7P unk unk -1, -1, -1, -1 , -1, -1, -1, -1, -1, -1, -1,  

A gén neve a 13. oszlopban található. Az exon kiindulási és végállása: a 10., illetve a 11. oszlopban. További információk a többi oszlopban találhatók:

  1. bin
  2. név
  3. chrom
  4. szál
  5. txStart
  6. txEnd
  7. cdsStart
  8. cdsEnd
  9. exonCount
  10. exonStarts
  11. exonEnds
  12. pont
  13. név2
  14. cdsStartStat
  15. cdsEndStat
  16. exonFrames
p> (Az oszlopinformációt az sql fájlról itt szereztük be)


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...