Annotation formatervezés

Daniel Standage

2017-06-08 12:06:30 UTC

view on stackexchange narkive permalink

A fájlformátumok elrontása a bioinformatika egyik kedvelt időtöltése, és úgy tűnik, hogy az annotációs fájlformátumok, például a GFF és a BED különös figyelmet kapnak. Sok ilyen csalódás abból adódik, hogy a közösség megdöbbentően következetlenül betartotta a specifikációkat és konvenciókat, de ezekben a formátumokban is akad néhány (merem objektíven mondani) problémás tervezési lehetőség.

GFF (és gyakoribb származékai, a GTF és a GFF3) 1 alapú zárt intervallum jelölést használnak, amely optimalizálja az emberi megértést, de messze elmarad a 0 alapú félig nyitott intervallum jelölésektől (például a BED által használt) az intervallum számtanával járó számításokhoz. / p>
Bár a BED-et és a GTF-et nagyon specifikus felhasználási esetekre tervezték (vizualizáció és génpredikció), ezeket sokkal szélesebb kontextusban használták és használták vissza. Például a vastag rész hez kapcsolódó BED mezők nem relevánsak, ha nem genom böngészőben ábrázolja őket.
A BED egyetlen a funkció lebontásának szintje (egy tulajdonság blokkokra bontható). A GTF két szintet támogat (az exonokat transzkript_azonosító, a transzkriptumokat gén_azonosító szerint csoportosítva). Ezzel szemben a GFF3 tetszőleges számú szintet támogat, és az ID és a Parent attribútumok által meghatározott szülő / gyermek kapcsolatokat használja a szolgáltatások irányított aciklikus grafikonjának deklarálásához.
Azokat az adatokat, amelyek nem illeszkednek a kötelező, előre meghatározott mezőkbe, opcionális mezőkbe vagy szabad formátumú attribútumkulcs / érték párokba kell helyezni. Bár ez a rugalmasság hatalmas, általános panasz az, hogy "minden művelet" ezeken az opcionális / szabad formátumú mezőkön történik.
Van egy kevés validációs eszköz, és a létező eszközök elsősorban a szintaxis és nem a szemantika érvényesítésére összpontosítanak. Az öregedési analógia használatához egy dolog azt mondani, hogy egy XML fájl érvényes, de teljesen más, ha azt egy séma alapján érvényesítjük. Lényegében nincsenek olyan széles körben használt eszközök, amelyek ez utóbbiakat használnák az annotációs fájlokhoz.

Ha egy új annotációs formátum létrehozását bízták meg velünk, és ha garantálták az ehhez szükséges erőforrásokat, fejlesztése, valamint a szélesebb közösség iránti érdeklődés és széles körű elfogadás (álmodni lehet!), milyen tervezési kritériumokat kell figyelembe venni ennek az új formátumnak a kidolgozása során? Mi teszi objektíven jó kommentár adatformátumot, ha van ilyen?

Csak a genomiális jellemzőket leíró formátumra kérdez? Az "kommentár" nagyon tág kifejezés, de úgy tűnik, hogy itt csak a genomi régiókat veszi figyelembe, vagy legalábbis olyan dolgokat, amelyeknek i) meghatározott "régiója" és ii) meghatározott "funkciója" van. Ez még mindig kizárná a fehérjék fenotípus-jelöléseit vagy a gének GI-jelöléseit. Meg tudná [szerkeszteni] és tisztázni, hogy milyen "annotációkat" fontolgat?

Az autoSql BED-koncepciója egy nagyon szép tulajdonság egy annotációs formátumhoz, és sok kibővíthetőséget tesz lehetővé. A vonáshierarchia fogalma mégis alapvetően egyszintű