#fasta

Za Wikipedią:

Format FASTA jest formatem zapisu sekwencji kwasów nukleinowych oraz białek używanym w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA uwzględnia również możliwość dodawania opisów i komentarzy do sekwencji.

Dane zapisane w formacie FASTA składają się z pojedynczej linii tekstu zawierającej opis sekwencji oraz z kolejnych linii zawierających samą sekwencję. Linia z opisem rozpoczyna się od znaku "większe niż" (">"). Pierwsze słowo po tym znaku służy jako identyfikator sekwencji. Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Przykładowa sekwencje w formacie FASTA wygląda tak:


>Keratyna 5, egzon 2, Homo sapiens GTGCGGTTCCTGGAGCAGCAGAACAAGGTTCTGGACACCAAGTGGACCCTGCTGCAGGAG CAGGGCACCAAGACTGTGAGGCAGAACCTGGAGCCGTTGTTCGAGCAGTACATCAACAAC CTCAGGAGGCAGCTGGACAGCATCGTGGGGGAACGGGGCCGCCTGGACTCAGAGCTGAGA AACATGCAGGACCTGGTGGAAGACTTCAAGAACAA

Zdarza się jednak, że plik fasta jest źle sformatowany i opis znajduje się w więcej niż jednej linijce. Zaleca się aby opis był krótszy niż 80 znaków.

Dodaj zakładkę 
Nierozwiązane
Ostatnio rozwiązane: 2019-02-27 04:20 , liczba rozwiązań: 25.
3

Jeśli GC-content w kontekście genu jest dla Ciebie oczywistością - spójrzmy na problem bardziej globalnie...

Dodaj zakładkę 
Nierozwiązane
Ostatnio rozwiązane: 2019-05-25 21:45 , liczba rozwiązań: 14.
2

GC-content to jeden z podstawowych parametrów liczbowych, które można uzyskać z sekwencji DNA. Można go wykorzystać, m. in. do znajdowania obszarów genomu obcego pochodzenia...

Dodaj zakładkę 
Nierozwiązane
Ostatnio rozwiązane: 2019-05-07 15:58 , liczba rozwiązań: 29.
1

Pewnie na codzień używasz różnego rodzaju plików. Warto, aby i Twoje programy umiały posługiwać się plikami. W tym zadaniu dowiesz się jak to zrobić.