#fasta

Za Wikipedią:

Format FASTA jest formatem zapisu sekwencji kwasów nukleinowych oraz białek używanym w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA uwzględnia również możliwość dodawania opisów i komentarzy do sekwencji.
Dane zapisane w formacie FASTA składają się z pojedynczej linii tekstu zawierającej opis sekwencji oraz z kolejnych linii zawierających samą sekwencję. Linia z opisem rozpoczyna się od znaku "większe niż" (">"). Pierwsze słowo po tym znaku służy jako identyfikator sekwencji. Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Przykładowa sekwencje w formacie FASTA wygląda tak:

>Keratyna 5, egzon 2, Homo sapiens GTGCGGTTCCTGGAGCAGCAGAACAAGGTTCTGGACACCAAGTGGACCCTGCTGCAGGAG CAGGGCACCAAGACTGTGAGGCAGAACCTGGAGCCGTTGTTCGAGCAGTACATCAACAAC CTCAGGAGGCAGCTGGACAGCATCGTGGGGGAACGGGGCCGCCTGGACTCAGAGCTGAGA AACATGCAGGACCTGGTGGAAGACTTCAAGAACAA

Zdarza się jednak, że plik fasta jest źle sformatowany i opis znajduje się w więcej niż jednej linijce. Zaleca się aby opis był krótszy niż 80 znaków.

GC-content genomu

Ostatnio rozwiązane: 2024-08-16 12:59 , liczba rozwiązań: 26.

Jeśli GC-content w kontekście genu jest dla Ciebie oczywistością - spójrzmy na problem bardziej globalnie...

➞

GC-content genu

Ostatnio rozwiązane: 2024-08-15 17:25 , liczba rozwiązań: 15.

GC-content to jeden z podstawowych parametrów liczbowych, które można uzyskać z sekwencji DNA. Można go wykorzystać, m. in. do znajdowania obszarów genomu obcego pochodzenia...

➞

Operacje na plikach

Ostatnio rozwiązane: 2024-09-06 13:06 , liczba rozwiązań: 34.

Pewnie na codzień używasz różnego rodzaju plików. Warto, aby i Twoje programy umiały posługiwać się plikami. W tym zadaniu dowiesz się jak to zrobić.

➞