FASTA “kombajn”

Dodaj zakładkę 
Autor: 
Trudność: 
3
Typ rozwiązania: 
Macierz
Dziedzina: 

FASTA to zdecydowanie najpopularniejszy format pliku służący do reprezentowania sekwencji nukleotydowych i aminokwasowych w formie cyfrowej. W dużym uproszczeniu format składa się z linii zawierających opis sekwencji (zaczynających się znakiem większości “>”) oraz z linii zawierających jednoliterowe skróty nazw nukleotydów/aminokwasów tworzących sekwencję (litery mogą być przedzielane spacjami i liczbami), przy czym te pierwsze nie są obowiązkowe. W jednym pliku może znajdować się jedna lub więcej sekwencji. Kliknij TUTAJ, aby dowiedzieć się więcej o formacie FASTA. Przykłady:

>|568815587:6259611-6272127 Homo sapiens chromosome 11 (fragment)
GGGAACCGGACCCGGGCCGGGGGCTTCCCTGTGCCGCCCGGGGGCGCCTCTCCTCAACAGCAGCAGTGTG
GGCAACCTCAGCTGCGAGCCCCCTCGCATTCGCGGAGCCGGGACACGAGGTGGGTGCCTCCCTCAGCCCC
CCCCACAAGCTATTTCTCACTGTACCCCAGAACACTAATAGAGTCCCCCCAACGAGCTCCACACTACCTT
CTCAAACGTCCACACCGTGCCTCTCATAGTACTCCCTCAGCCCCCAAACAGCTCCCCTCACACCTTCACC
CCCACAGCCTACAACTTCATCACAGCTTCACACCACCTGGTCGGAACTCCTTCACATCCTGGTCCCCTGA
ATACACCTAGAGCCCCTGCT
>|Q7XTE8|14332_ORYSJ 14-3-3-like protein GF14-B OS=Oryza sativa subsp. japonica
  1 MSAQAELSRE ENVYMAKLAE QAERYEEMVE FMEKVAKTVD SEELTVEERN LLSVAYKNVI
 61 GARRASWRII SSIEQKEESR GNEDRVTLIK DYRGKIETEL TKICDGILKL LESHLVPSST
121 APESKVFYLK MKGDYYRYLA EFKTGAERKD AAENTMVAYK AAQDIALAEL PPTHPIRLGL
181 ALNFSVFYYE ILNSPDRACN LAKQAFDEAI SELDTLSEES YKDSTLIMQL LRDNLTLWTS
241 DISEDTAEEI REAPKRDSSE GQ
>|Q8JG70|AA2DA_DANRE Alpha-2Da adrenergic receptor OS=Danio rerio GN=adra2da PE=3 SV=1
  1 MSVTPTANST EEAANITASP RLWPYTEPAS AIIILVVSLI ILLTIVGNVL VIVAVLTSRA
 61 LRAPQNLFLV SLACADILVA TLVIPFSLAN EIMGYWYFGS TWCAFYLALD VLFCTSSIVH
121 LCAISLDRYW SVTKAVRYNL KRTPRRIKCM IAVVWLISAV ISFPPLIMTK HDEKECLIND
181 ETWYILSSCA VSFFAPGLIM ITVYCKIYRV AKQRSSTVFV AKNGLERQPS QSETCFVRKD
241 KFEKESPSSN SSESAQRQEE LDDIDLEESA ASDSRARGSR FSKRRRVEGE RRGPQRSCRV
301 SWAAHQEPGS RQQQLASKSK VAQMREKRFT FVLAVVMGVF VLCWFPFFFT YSLQAVCGER
361 CGPPEALFKL FFWIGYCNSS VNPIIYTIFN RDFRKAFKKV VCWSAQRT
>|Q08C93|ABD12_DANRE Monoacylglycerol lipase ABHD12 OS=Danio rerio GN=abhd12 PE=2 SV=1
  1 MRKRKGSADH DSSFTATLTD GSSDLKQCHK GTDADTDPGG SGKEMGRRCR RGGLMWRLRR
 61 ILIWLLGIYI AIPVIIKVCP SIQAKLVFLN FVRVPYFIDL KRPQDQGMNH THNFYLQPEE
121 GINIGVWHTV PAGMWREAQA KDAEWYEKSF QSSHPVILYL HGNAGTRGGD HRVQLYKVLS
181 SLGYHVVTFD YRGWGDSEGS PSERGMTSDA LFLYQWIKQR IGPKPLYIWG HSLGTGVATN
241 LVRRLCDRGT PPDALILESP FTNIREEAKS HPFSMVYRYL PGFDWFFLDA ISANDIRFAS
301 DENVNHISCP VLILHAEDDT VVPFQLGKKL YDLAAQSKSL NGHKVQFIPF SSSLGYRHKF
361 IYKSPQLPNI LSDFLRAPHP HG

Napisz program, który wczyta plik w formacie FASTA (na potrzeby zadania przyjmijmy, że w pliku znajduje się jedna sekwencja jądrowego, eukariotycznego DNA, nieprzedzielona spacjami/liczbami - tak jak w pierwszym przykładzie) i go zanalizuje, tj.:

  • Obliczy GC-content (w zaokrągleniu do 1%, w przypadku niedokładnie określonego nukleotydu (litery innej niż A/C/G/T) należy go pominąć),
  • Znajdzie wszystkie potencjalne kodony start (ATG), tj. pozycje pierwszych nukleotydów w kodonie,
  • Znajdzie wszystkie potencjalne TATA-box’y (sekwencje ‘TATAAA’), tj. pozycje pierwszej tyminy w box’ie,
  • Znajdzie wszystkie wystąpienia sekwencji ANTTNCCNA, gdzie N to dowolny nukleotyd (może być nieokreślony), tj. pozycje pierwszej adeniny w tej sekwencji,
  • Znajdzie pozycje wszystkich niedokładnie określonych nukleotydów,
  • Poda ilość nukleotydów w sekwencji.

Odpowiedź podaj w formie macierzy, której wiersze (posortowane rosnąco, pooddzielane średnikami) to wyniki kolejnych części analizy

[GC_content;ATG_1,ATG_2;TATA_1,TATA_2;ANTTNCCNA_1,ANTTNCCNA_2;niedokladny_1,niedokladny_2;ilosc]

np.

[43;2,45,111;3,33,89;34,44,54,64,74;1,111;2,4,6,8;321]

 

I pamiętaj, że (bio)informatycy liczą od 0, a nie od 1 :)

ZałącznikWielkość
sequence.fasta2.17 KB
Nierozwiązane