#fasta

Za Wikipedią:

Format FASTA jest formatem zapisu sekwencji kwasów nukleinowych oraz białek używanym w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA uwzględnia również możliwość dodawania opisów i komentarzy do sekwencji.

Dane zapisane w formacie FASTA składają się z pojedynczej linii tekstu zawierającej opis sekwencji oraz z kolejnych linii zawierających samą sekwencję. Linia z opisem rozpoczyna się od znaku "większe niż" (">"). Pierwsze słowo po tym znaku służy jako identyfikator sekwencji. Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Przykładowa sekwencje w formacie FASTA wygląda tak:


>Keratyna 5, egzon 2, Homo sapiens GTGCGGTTCCTGGAGCAGCAGAACAAGGTTCTGGACACCAAGTGGACCCTGCTGCAGGAG CAGGGCACCAAGACTGTGAGGCAGAACCTGGAGCCGTTGTTCGAGCAGTACATCAACAAC CTCAGGAGGCAGCTGGACAGCATCGTGGGGGAACGGGGCCGCCTGGACTCAGAGCTGAGA AACATGCAGGACCTGGTGGAAGACTTCAAGAACAA

Zdarza się jednak, że plik fasta jest źle sformatowany i opis znajduje się w więcej niż jednej linijce. Zaleca się aby opis był krótszy niż 80 znaków.

Dodaj zakładkę 
Nierozwiązane
Ostatnio rozwiązane: 2024-08-16 12:59 , liczba rozwiązań: 26.
3

Jeśli GC-content w kontekście genu jest dla Ciebie oczywistością - spójrzmy na problem bardziej globalnie...

Dodaj zakładkę 
Nierozwiązane
Ostatnio rozwiązane: 2024-08-15 17:25 , liczba rozwiązań: 15.
2

GC-content to jeden z podstawowych parametrów liczbowych, które można uzyskać z sekwencji DNA. Można go wykorzystać, m. in. do znajdowania obszarów genomu obcego pochodzenia...

Dodaj zakładkę 
Nierozwiązane
Ostatnio rozwiązane: 2024-09-06 13:06 , liczba rozwiązań: 34.
1

Pewnie na codzień używasz różnego rodzaju plików. Warto, aby i Twoje programy umiały posługiwać się plikami. W tym zadaniu dowiesz się jak to zrobić.