Operacje na plikach

Dodaj zakładkę 
Autor: 
Trudność: 
1
Typ rozwiązania: 
Tekst
Dziedzina: 
Terminy: 

Biolog poprosił Cię o zebrannie w jednym miejscu wszystkich sekwencji należących do jednego gatunku.  Mamy plik #fasta, który zbudowany jest  w następujący sposób: linijka zaczynająca się znakiem ">" zawiera nagłówek składający sie ze słów oddzielonych spacjami, wsród których jest określenie gatunku. Poniżej każdego nagłówka znajduje się jedna lub wiele linii różnych symboli określających aminokwasy należące do tej sekwencji. Biolog prosi Cię, żebyś znalazł wszystkie sekwencje, które w nagłówku zawierają "melanogaster" co jest fragmentem łacińskiej nazwy gatunku popularnych muszek owocowych.

W wyniku chciałby otrzymać zawierający oddzielone przecinkami długości sekwencji należących do muszki owocowej.

Na przykład rozwiązaniem dla pliku

>TWIST Drosophila melanogaster
mmsarsvspkvlldisykp
hhqqhhqqqhaqyaplpseya
>TWIST Tribolium casteanum
mdltnstekflptvlphqevpppfgyyheepplfyeerpdfvapyikveadeeapvlksr
sfgrkrksissdeensfqgkhksrrkapqsfediqhqrvmanvrerqrtqslneafaslr
ksiptmpsdklskiqtlklaaryidflyhvlsnenaldvdlignvcsyvvrdkllkaftr
>TINMAN Drosophila melanogaster
mlqhhqqqaqsgg
dgaatasalfaagey
 

będzie;

[40, 28]

 

ZałącznikWielkość
geny.fasta2.29 KB
Nierozwiązane