ChIP-seq i czynniki transkrypcyjne
Zapisane na #DNA geny nie są potrzebne wszystkie naraz - niektóre są potrzebne tylko raz na całe życie (np. te odpowiedzialne za rozwój dorosłego osobnika z pojedynczej komórki), inne tylko w wyjątkowych sytuacjach (np. jakiegoś uszkodzenia lub infekcji), jeszcze inne cały czas, ale w różnych ilościach. W związku z tym mechanizmy ekspresji genów podlegają regulacji. Jednym ze sposobów regulacji jest wykorzystanie czynników transkrypcyjnych - są to białka, które potrafią rozpoznać konkretną sekwencję i przyczepić się do niej, a następnie działać jako sygnał dla innych białek informujący je, czy dany gen jest w tej chwili potrzebny czy nie. Jest wiele różnych czynników transkrypcyjnych, reagujących na różne bodźce zewnętrzne i rozpoznających różne sekwencje. Przykładowo, u roślin istnieje czynnik transkrypcyjny DREB1A rozpoznający sekwencję TACCGACAT, która znajduje się przed wieloma genami potrzebnymi w czasie suszy - susza uruchamia białka DREB1A i sprawia, że przemieszczają się one do jądra komórki i łączą się z sekwencją TACCGACAT informując inne białka, że te geny są w tej chwili potrzebne.
Mechanizmy regulacji ekspresji genów są bardzo istotne i prowadzi się wiele badań mających na celu poznanie ich dokładnego działania. Jedną z metod, która pozwala dowiedzieć się, gdzie na DNA przyczepił się badany czynnik transkrypcyjny jest metoda ChIP-seq. W jej wyniku otrzymujemy listę sekwencji, do których przyczepiony był badany czynnik w analizowanych komórkach. Po zliczeniu, ile razy każdy fragment pojawił się w wyniku możemy otrzymać plik o następującej konstrukcji:
chr1 1 5
chr1 2 7
chr1 3 6
chr1 4 17
chr1 5 28
chr1 6 29
chr1 7 11
chr1 8 4
chr1 9 6
chr1 10 3
...
W pierwszej kolumnie mamy chromosom, w drugiej: pozycję na chromosomie, w trzeciej: ile razy dany fragment pojawił się w naszym wyniku (dalej będę nazywać tę wartość poziomem sygnału). W podanym przykładzie pierwszy nukleotyd pierwszego chromosomu pojawił się 5 razy, drugi: 7 etc. Metoda ChIP-seq nie jest idealna i dochodzi do wielu zakłóceń i szumów, w związku z czym pojawiają się niezerowe wartości nawet tam, gdzie czynnika transkrypcyjnego wcale nie było; w podanym przykładzie widać, że wszędzie wartości są wyższe od zera, ale za to przy nukleotydach 4-7 są itotnie wyższe. Zadaniem analizującego dane bioinformatyka jest znalezienie takich miejsc, gdzie poziom sygnału jest znacząco wyższy niż gdzie indziej - są to miejsca, gdzie sądzimy, że faktycznie badany czynnik był związany. Wszystkie pozostałe to nieistotne tło.
Twoim zadaniem jest znaleźć w załączonym pliku miejsca, gdzie przypuszczalnie związany był czynnik transkrypcyjny i podać liczbę takich miejsc Na potrzeby zadania przyjmijmy, że za takie miejsce uznamy takie, gdzie poziom sygnału jest co najmniej dwukrotnie wyższy od średniego sygnału na całym genomie. W naszym przykładzie średni sygnał to (5+7+6+17+28+29+11+4+6+3) / 10 = 11.6, poziom dwukrotnie wyższy od średniego jest na nukleotydach 5 i 6. Przyjmujemy, że jeśli wysoki sygnał pochodzi z sąsiadujących fragmentów to pochodzi pewnie od jednego czynnika transkrypcyjnego, ostatecznie więc uznajemy, że w podanym przykładzie mamy do czynienia z jednym miejscem wiązania czynnika transkrypcyjnego.
Odpowiedzią jest liczba znalezionych miejsc (w przykładzie: 1).
Załącznik | Wielkość |
---|---|
chip-seq_data.sgr_.txt | 111.85 KB |
- Zaloguj się albo zarejestruj aby dodać rozwiązanie