Kérdés:
Hogyan hozhatok létre saját GO társítási fájlt (gaf)?
Michael
2017-06-08 12:57:22 UTC
view on stackexchange narkive permalink

Ez a kérdés egy kérdésen alapul, amelyet a BioStars-on 2 évvel ezelőtt írt ki a jack felhasználó.

Nagyon gyakran leírja a GO-jelölések generálását nem modell organizmusok számára. . Bár ez valamilyen speciális formátumon és egyetlen alkalmazáson (Ontologizer) alapul, hasznos lenne általános leírást adni a GAF fájl elérésének útjáról.

Ne feledje, hogy a beviteli formátumból hiányzik egy kis alapvető információ, például annak megszerzésének módja. Ezért bizonyítékkódot kell rendelni. Ezért tegyük fel, hogy a GO kifejezések hozzárendelései automatikusan történtek.


Szeretném elvégezni a géndúsítást az Ontologizer segítségével előre definiált társítási fájl nélkül (ez nem modellszervezet).

Elemeztem egy fájlt, amely két oszlopot tartalmazott ehhez a szervezethez:

  geneA GO: 0006950, GO: 0005737geneB GO: 0016020, GO: 0005524, GO: 0006468 , GO: 0005737, GO: 0004674, GO: 0006914, GO: 0016021, GO: 0015031geneC GO: 0003779, GO: 0006941, GO: 0005524, GO: 0003774, GO: 0005516, GO: 0005737, GO: 0005863geneD GO: , GO: 0003677, GO: 0030154, GO: 0006350, GO: 0006355, GO: 0007275, GO: 0030528  

Az .ob fájlt letöltöttem a gén ontológiai fájlból, amely ezeket az információkat tartalmazza ( innen):

  !! GO ID-k (csak elsődleges) és szöveges karakterláncok megnevezése! GO: 0000000 [tab] szöveg karakterlánc [tab] F | P | C! ahol F = molekuláris funkció, P = biológiai folyamat, C = sejtkomponens! GO: 0000001 mitokondrium öröklődése PGO: 0000002 mitokondriális genom fenntartó PGO: 0000003 reprodukció PGO: 0000005 riboszomális chaperone aktivitás FGO: 0000006 nagy affinitású cink felvétel transzmembrán transzporter aktivitás FGO alacsony affinitású cinkion transzmembrán transzporter aktivitás FGO: 0000008 tioredoxin FGO: 0000009 alfa-1,6-mannosiltranszferáz aktivitás FGO: 0000010 transz-hexapreniltransztranszferáz aktivitás FGO: 0000011 vacuole öröklés P  

Mire van szükségem a kimenet .gaf fájl a következő formátumban (a a fájlok formátuma itt):

 ! gaf-version: 2.0! Project_name: Leishmania major GeneDB! URL: http://www.genedb.org/leish ! Kapcsolattartó e-mail: mb4@sanger.ac.uk .36.4770 LmjF.36.4770 GO: 0044429 PMID: 20660476 ISS C mitokondriális RNS-kötő komplex 1 alegység, feltételezett LmjF36.4770 gén taxon: 347515 20100803 GeneDB_Lmajor GeneDB_Lmajor LmjF.36.47.4670.4770.4770 Lidj mitokondriális RNS-kötő komplex 1 alegység, feltételezett LmjF36.4770 gén taxon: 347515 20120910 GeneDB_Lmajor GeneDB_Lmajor LmjF.36.4770 LmjF.36.4770 GO: 0048255 PMID: 22396527 ISO GeneDB: Tb9 27.10.10130 P mitokondriális RNS-kötő komplex 1 alegység, feltételezett LmjF36.4770 gén taxon: 347515 20120910 GeneDB_Lmajor  

Hogyan hozhatunk létre saját GO asszociációs fájlt (gaf)?

blokk idézet>
Kérjük, adjon hozzá néhány címkét a GO-hoz, a nem-modell organizmushoz, a gaf-hez, a túlreprezentáció elemzéséhez stb.
Kicsit módosítottam a kérdést, címkéket adtam hozzá, és a kérdést a fájl ilyen formátumú létrehozásakor középre helyeztem. Ha nem értesz egyet, csak állítsd vissza a változtatásokat
Hozzáadtam [tag: gén-ontológia] és [tag: gaf]. Nem vagyok biztos benne, hogy egy [tag: túlreprezentáció-elemzés] vagy egy [tag: dúsítás-elemzés] lenne-e megfelelőbb.
@Llopis: Remélhetőleg nem véletlenül írtam felül a változtatásokat!
Nincs szerencsém, a szerkesztésemet elutasították (vagy legalábbis nem jelennek meg): \
Ha kérdéseket szeretne eljuttatni egy másik webhelyről, [kérjük, ne csak másolja / illessze be őket szó szerint] (https://bioinformatics.meta.stackexchange.com/q/78/298). Ehelyett * kérdezze meg újra saját szavaival *. És ha mégis másol, jobb lenne, ha az idézett szöveget egy idézetblokkba helyezné, hogy egyértelműen jelezze, hogy ez idézet.
@terdon, sajnálom, hogy alkalmazkodnom kell az új szabályokhoz;) Elfogadtam a szerkesztéseket, azonban nincs időm a kérdést a saját szavaimmal átírni, és nem hiszem, hogy feltétlenül szükséges. Még ha ez ellentmondásnak is tűnik az előző bejegyzésemmel, ez nem imo, mert a kérdés elég idős.
@Michael nem, nem számítottam rá, hogy ezt most átírja! De kérlek, legközelebb tedd meg. Úgy tűnik, hogy más helyekről szó szerint csipegetve körbejárni nem helyes. Csak akkor, ha képes vagy pontosításokat felajánlani, vagy ez egy olyan kérdés, amely Önt is érinti.
Valójában bőségesen tisztázhatom ezt a kérdést, pontosan ugyanazt csináljuk, kivéve, hogy az InterproScan segítségével GO kifejezéseket rendelünk, nem pedig Blast2GO-t, amint itt valószínűleg használták. Hasonló szkriptem van az IPS kimenet GAF-ba konvertálásához.
Ha! Csak most jöttem rá, hogy te voltál az az ember, aki először felvetette az egész másolatot más webhelyekről, mint problémát :)
Egy válasz:
terdon
2017-06-08 14:08:05 UTC
view on stackexchange narkive permalink

Itt van egy Perl szkript, amely ezt megteheti:

  #! / usr / bin / env perl use szigorú; használjon figyelmeztetéseket; ## Change ez annak a taxonnak, amellyel dolgozik, a $ taxon = 'taxon: 1000'; chomp ($ date = `dátum +% Y% M% d`); my (% aspektus,% gos); ## Olvassa el a GO-t. terms_and_ids fájl az egyes GO kifejezések (# ontológia) ## aspektusának megszerzéséhez. nyisd meg (a $ fh, $ ARGV [0]) vagy halj meg "GO.terms_and_ids fájlra van szükséged első argumént: $! \ n"; míg (< $ fh>) {következő, ha / ^! /; chomp; az én @ mezők = osztott (/ \ t /); ## $ aspektus {GO: 0000001} = 'P' $ szempont {$ mezők [0]} = $ mezők [2];} bezár ($ fh); ## Olvassa el a génjegyzetek listájátnyit ($ fh, $ ARGV [1]) vagy meghaljon "Szüksége van a gén annotációk listájára, mint 2. arg: $! \ N"; míg (< $ fh>) {chomp; my ($ gén, @terms) = osztott (/ [\ s,] + /); ## $ gos {geneA} = (go1, go2 ... goN) $ gos {$ gene} = [@terms];} bezár ($ fh); foreach a $ génemet (kulcsok (% gos)) {foreach my $ term (@ {$ gos {$ gene}}) {## Figyelmeztetés és kihagyás, ha a kifejezésnek nincs aspektusa, ha (! $ aspektus {$ term}) {print STDERR "Ismeretlen GO kifejezés ($ term) a génhez $ gén \ n "; következő; } ## Készítsen egy ál GAF sort my @out = ('DB', $ gén, $ gén, '', $ kifejezés, 'PMID: foo', 'TAS', '', $ szempont {$ term}, $ gén, '', 'fehérje', $ taxon, $ dátum, 'DB', '', ''); print join nyomtatása ("\ t", @out). "\ n"; }}  

Tegye futtathatóvá, és futtassa a GO.terms_and_ids fájl első argumentumaként, a második pedig a génjegyzetek listája. Az aktuális GO.terms_and_ids és a kérdésben szereplő példajegyzetek használatával a következőt kapom:

  $ foo.pl GO.terms_and_ids file.gos DB geneD geneD GO: 0005634 PMID: foo TAS C génD fehérje taxon: 1000 20170308 DB DB génD gén D GO: 0003677 PMID: foo TAS F génD fehérje taxon: 1000 20170308 DB
DB génD génD GO: 0030154 PMID: foo TAS P gén fehérje taxon: 1000 20170308 DB Ismeretlen GO kifejezés (GO: 0006350) a gén gén számáraDDB génD gén GO: 0006355 PMID: foo TAS P génD fehérje taxon: 1000 20170308 DB DB génD génD GO : 0007275 PMID: foo TAS P génD fehérje taxon: 1000 20170308 DB DB génD génD GO: 0030528 PMID: foo TAS F génD fehérje taxon: 1000 20170308 DB DB génB génB GO: 0016020 PMID: foo TAS C génB fehérje taxon: 1000 20170308 DB DB geneB génB GO: 0005524 PMID: foo TAS F génB fehérje taxon: 1000 20170308 DB DB génB génB GO: 0006468 PMID: foo TAS P génB fehérje taxon: 1000 20170308 DB DB génB GO: 0005737 PMID: foo TAS C génB fehérje taxon : 1000 20170308 DB DB génB génB GO: 0004674 PMID: foo TAS F génB fehérje taxon: 1000 20170308 DB DB génB génB GO: 0006914 PMID: foo TAS P génB fehérje taxon: 1000 20170308 DB DB génB génB GO: 0016021 PMID: foo TAS C génB fehérje taxon: 1000 20170308 DB DB génB génB GO: 0015031 PMID: foo TAS P génB fehérje taxon: 1000 20170308 DB DB génA génA GO: 0006950 PMID: foo TAS P génA fehérje taxon: 1000 20170308 DB DB génA génA GO: 0005737 PMID: foo TAS C génA fehérje taxon: 1000 20170308 DB DB génC génC GO: 0003779 PMID: foo TAS F génC fehérje taxon: 1000 20170308 DB DB génC génC GO: 0006941 PMID: foo TAS P génC fehérje taxon: 1000 20170308 DB DB génC génC GO: 0005524 PMID: foo TAS F gén fehérje taxon: 1000 20170308 DB
DB geneC geneC GO: 0003774 PMID: foo TAS F génC fehérje taxon: 1000 20170308 DB DB geneC génC GO: 0005516 PMID: foo TAS F génC fehérje taxon: 1000 20170308 DB DB geneC génC GO: 0005737 PMID: foo TAS C gén fehérje taxon : 1000 20170308 DB DB geneC geneC GO: 0005863 PMID: foo TAS C génC fehérje taxon: 1000 20170308 DB 

Ne feledje, hogy ez nagyon ál-GAF fájl, mivel a mezők többsége elválik a génnévből a GO kifejezés és az al-ontológia hamis. Ennek azonban továbbra is megfelelőnek kell lennie.

Úgy gondolom, hogy a bizonyítékkódot IEA-ra kell változtatni, mert nem valószínű, hogy kézzel írták volna fel a GO-kat egy nem modell organizmusra.
@Michael, nem igazán jelent különbséget, ezért a TAS-t választottam, mivel ezek az OP által nyújtott kommentárok. De bizony, az IEA is működne. A dúsítási elemzés során a mezőt minden esetben figyelmen kívül hagyják, így tetszés szerint beírhatja.
Persze az IEA-t néhány eszköz el is vetheti.


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...