Jeśli GC-content w kontekście genu jest dla Ciebie oczywistością - spójrzmy na problem bardziej globalnie...
#fasta
Za Wikipedią:
Format FASTA jest formatem zapisu sekwencji kwasów nukleinowych oraz białek używanym w bioinformatyce. Nukleotydy (dla DNA i RNA) oraz aminokwasy (dla białek) oznaczone są jednoliterowymi skrótami. Format FASTA uwzględnia również możliwość dodawania opisów i komentarzy do sekwencji.
Dane zapisane w formacie FASTA składają się z pojedynczej linii tekstu zawierającej opis sekwencji oraz z kolejnych linii zawierających samą sekwencję. Linia z opisem rozpoczyna się od znaku "większe niż" (">"). Pierwsze słowo po tym znaku służy jako identyfikator sekwencji. Dalej w tej samej linii umieszczany jest opis. W kolejnych liniach znajduje się ciąg znaków składający się na sekwencję. Przykładowa sekwencje w formacie FASTA wygląda tak:
>Keratyna 5, egzon 2, Homo sapiens GTGCGGTTCCTGGAGCAGCAGAACAAGGTTCTGGACACCAAGTGGACCCTGCTGCAGGAG CAGGGCACCAAGACTGTGAGGCAGAACCTGGAGCCGTTGTTCGAGCAGTACATCAACAAC CTCAGGAGGCAGCTGGACAGCATCGTGGGGGAACGGGGCCGCCTGGACTCAGAGCTGAGA AACATGCAGGACCTGGTGGAAGACTTCAAGAACAA
Zdarza się jednak, że plik fasta jest źle sformatowany i opis znajduje się w więcej niż jednej linijce. Zaleca się aby opis był krótszy niż 80 znaków.
GC-content to jeden z podstawowych parametrów liczbowych, które można uzyskać z sekwencji DNA. Można go wykorzystać, m. in. do znajdowania obszarów genomu obcego pochodzenia...
Pewnie na codzień używasz różnego rodzaju plików. Warto, aby i Twoje programy umiały posługiwać się plikami. W tym zadaniu dowiesz się jak to zrobić.