Kérdés:
Ismétlődő hosszú slágerek a PSI-BLAST-tól
Sara
2017-06-19 22:41:37 UTC
view on stackexchange narkive permalink

Volt egy fehérje Refseq ID-m, és ezt a szekvenciát PSI-Blasteltem a Refseq adatbázisban. Mindannyian tudjuk, hogy a Refseq egy Referencia szekvencia adatbázis, és nem szabad, hogy redundáns legyen. A szekvenciám robbantása után az első iterációban 1000 találatot kaptam, és közöttük sok redundáns szekvencia volt!

A szekvenciámban 241 aminosav volt, és sok olyan szekvenciát találtam, amelyek 100% -os azonossággal, 100% -os fedéssel és 0 E-értékkel voltak pontosan megegyeznek a szekvenciámmal, de eltérő azonosítóval. Mindezek az azonosítók a RefSeq-től származnak! Más iterációkban és a formátum opciók módosítása után ezt a redundanciát kaptam más fajok más szekvenciáival. A szekvenciám egy többláncú fehérje (E.coli fumarát-reduktáz) láncához kapcsolódik.

Például, amikor az NP_418578-ot használtam lekérdezésként, megtaláltam a WP_078165098.1, WP_064226696.1, WP_062863447.1, WP_001401474 .1 és más, amelyek azonosak voltak.

Szeretném tudni, mi a baj a Refseq-kel. Tényleg referencia sorozat adatbázis? Ha igen, honnan származik ez az elbocsátás és miért?

Feltételezem, hogy az adatbázis fehérje verzióját használta, igaz? És ugyanazon faj összes slágere volt? Kérjük, [szerkessze] a kérdését, és mutasson be egy konkrét példát. Mutasd meg nekünk a lekérdezés sorrendjét és néhány felesleges eredményt.
Igen, az adatbázis fehérjeváltozatát használom, és a Refseq azonosítóm: NP_418578.1 más, ugyanazok a Refseq azonosítók: WP_078165098.1, WP_064226696.1, WP_062863447.1, WP_001401474.1 és mások
@Sara Lehet, hogy közzétehet egy képernyőképet az eredményeiről (és lekérdezéseiről). De ha egy rövid, 241aa szekvencia több szekvenciában van, az jó megőrzésre utalhat (talán ez egy domén?)
@Sara Kérjük, [szerkessze] kérdését további információk hozzáadásához. A megjegyzéseket könnyű kihagyni, nehezen olvashatók, és figyelmeztetés nélkül törölhetők.
Egy válasz:
terdon
2017-06-20 17:11:47 UTC
view on stackexchange narkive permalink

Ez az úgynevezett szolgáltatás, nem pedig hiba. Ne feledje, hogy az Ön azonos fehérjéinek a WP_ kezdetű kezdőbetűi vannak. Ezek speciális "nem redundáns fehérjék". Számos szekvencia - különösen a bakteriális szekvencia - azonos a különböző fajok között, ezért mindegyikükre külön RefSeq bejegyzés lenne hatástalan. Ezért a RefSeq több ilyen fehérjét egyetlen WP_ rekordba egyesít. Ezt itt (kiemelés az enyém) dokumentálják:

2013 közepén egy új típusú, nem redundáns fehérjeszekvenciákat képviselő RefSeq fehérje rekordot vezettek be. Ezt a rekordtípust vezették be a Prokarióta RefSeq fehérje adatállomány redundanciájával növekvő problémára, amely egybeesett az egyes izolátumok és a szorosan kapcsolódó baktériumtörzsek baktériumgenom-beadásának jelentős növekedésével. Például egy betegség kitörése során nagyszámú kiváló minőségű baktérium genom nyújtható be. A beküldött szekvenciák tükrözhetik a kórokozók evolúcióját a járvány során, de az ezen genomokból származó kódolt fehérjék többsége azonos lehet egymással. Mivel a RefSeq ezeket a genomokat tartalmazza, közösségi kérelmenként, ez fokozott redundanciát eredményezett. Azonos fehérjék reprezentációja egyetlen nem redundáns fehérje belépési szám felhasználásával („WP_” előtaggal) jelentősen csökkenti a redundanciát az adatbázisban. . . ]

Mivel több faj RefSeq genomjában nem redundáns fehérjeszekvencia található, a fehérjerekordon szereplő organizmus információ a legalacsonyabb közös taxonómiai csomópontot tükrözi a nemzetség faj szintjétől a szuper királyságig erős>. Egy nem redundáns fehérjerekord, amely organizmus-információt szolgáltat egy nemzetség, család vagy akár szuperkirályság szintjén, nem jelenti azt, hogy a fehérje az összes taxonómiai besorolás alatti RefSeq genomban megtalálható. Ez csak azt jelzi, hogy a fehérje többféle faj különböző genomjában található meg, amelyeknél a nemzetség, a család vagy a szuperkirályság osztályozása a legalacsonyabb közös rendszertani csomópont.

Tehát, a lekérdezés NP_418578.1, anaerob fumarát-reduktáz katalitikus és NAD / flavoprotein alegység volt az E. coli K-12 törzs, MG1655 altörzs. Először azt kell észrevenni, hogy ez mennyire konkrét. Ez az a fehérje, amely egy adott baktériumfaj egyik specifikus törzsének egyik specifikus alszármazékából származik. Indokolt arra számítani, hogy sok-sok szorosan rokon fajtól azonos szekvenciák lesznek. Valószínűleg E összes többi törzséből és alvezetékéből coli t és más, rokon baktériumokat.

Most az Ön által említett specifikus szekvenciák valójában kissé különböznek és nem 100% -ban azonosak. Az alábbiakban az NP_418578.1 és az Ön által említett 4 WP_ szekvencia többszörös összehangolása látható. Vegye figyelembe, hogy az 5 bejegyzés mindegyike kissé eltér. Mindegyiknek egy maradéka különbözik a többitől. Az identitássorban keresse meg a : -ot, 4 : van, az összes többi pedig * (itt csak a vonatkozó igazítási blokkokat mutatom, és eltávolította azokat, ahol mind a 4 szekvencia megegyezett):

  WP_001401474.1 MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAVAQDHWP_062863447.1 MQTFQADLAIVGAGGGALGAAAALAAA
WP_064226696.1 MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAVAQDHNP_418578.1 MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAVAQDHWP_078165098.1 MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAIAQDH **************************************** ***************: **** [. . . ] WP_001401474.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGTWP_062863447.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGTWP_064226696.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHIRGLVAMNMMEGTNP_418578.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGTWP_078165098.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGT ********************************* **************: ************ [. . . ] WP_001401474.1 GILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWRWP_062863447.1 GILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKISQAFWHEWRWP_064226696.1 GILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWRNP_418578.1 GILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWRWP_078165098.1 GILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWR ********************************* *****************: ********* WP_001401474.1 KGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGIDPVKEPIPVRPTAHYTMGWP_062863447.1 KGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMGWP_064226696.1 KGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMGNP_418578.1 KGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMGWP_078165098.1 KGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMG ******* **********************************: ************* *** [. . . ]  

A szekvenciád (NP_418578.1) csak egy WP_ * többfajta szekvenciával azonos, WP_001192973:

  WP_001192973.1 MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAVAQDHNP_418578.1 MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPM************************ *********************** WP_001192973.1 DSFEYHFHDTVAGGDWLCEQDVVDYFVHHCPTEMTQLELWGCPWSRRPDGSVNVRRFGGMNP_418578.1 DSFEYHFHDTVAGGDWLCEQDVVDYFVHHCPTEMTQLELWGCPWSRRPDGSVNVRRFGGM ******************** **************************************** WP_001192973.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGTNP_418578.1 KIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGT *** **************************************************** ******* WP_001192973.1 LVQIRANAVVMATGGAGRVYRYNTNGGIVTGDGMGMALSHGVPLRDMEFVQYHPTGLPGSNP_418578.1 LVQIRANAVVMATGGAGRVYRYNTNGGIVTGDGMGMALSHGVPLRDMEFVQYHPTGLPGS ************************************ ************************ WP_001192973.1 GILMTEGCR GEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWRNP_418578.1 GILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWR*************************** ************** WP_001192973.1 KGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMGNP_418578.1 KGNTISTPRGDVVYLDLRHLGEKKLAKT *** ********************************************* ***** 1 GNEAAIEAQAAGVEQRLKDLVNQDGGENWAKIRDEMGLAMEEGCGIYRTPELMQKTIDKLNP_418578.1 GNEAAIEAQAAGVEQRLKDLVNQDGGENWAKIRDEMGLAMEEGCGIYRTPELMM*************************** ***************
WP_001192973.1 AELQERFKRVRITDTSSVFNTDLLYTIELGHGLNVAECMAHSAMARKESRGAHQRLDEGCNP_418578.1 AELQERFKRVRITDTSSVFNTDLLYTIELGHGLNVAECMAHSAM***************************** *** *********************************** WP_001192973.1 NGNP_418578.1 NG **  

Összefoglalva tehát a RefSeq több azonos szekvenciát egyesít egyetlen WP_ * több fajú csatlakozással. Ezért számíthat arra, hogy talál egy 100% -ban azonos WP_ * szekvenciát a lekérdezéshez, és több, majdnem azonos WP_ * bejegyzést. És pontosan ezt látja itt.

Kedves terdon, nagyon köszönöm szép válaszodat. Úgy tűnik, jobb, ha erre a több fajú WP_ * csatlakozásra BLAST-ot csinálok a konkrét NP_ * csatlakozás helyett, nem igaz?
@Sara, ha ez még mindig a homológok megtalálásáról szól, akkor csak azt írja be, amit csak talál. Minél több (releváns) szekvenciát tartalmaz, annál jobbak lesznek az eredményei. Most, ha az NP és a WP szekvenciák 100% -ban megegyeznek, egyáltalán nincs különbség a kettő közül, hogy melyiket használja lekérdezésként, mivel ugyanaz a szekvencia. Egyébként nyugodtan pingáljon (`@terdon`) a [Bioinformatikai csevegőszobában] (http://frt.saphetor.hcuge.ch:12032/sample/127/coverage/127000001), ha további pontosításokra van szüksége.


Ezt a kérdést és választ automatikusan lefordították angol nyelvről.Az eredeti tartalom elérhető a stackexchange oldalon, amelyet köszönünk az cc by-sa 3.0 licencért, amely alatt terjesztik.
Loading...