ChIP-seq i czynniki transkrypcyjne

Dodaj zakładkę 
Autor: 
Trudność: 
2
Typ rozwiązania: 
Liczba
Dziedzina: 
Terminy: 

Zapisane na #DNA geny nie są potrzebne wszystkie naraz - niektóre są potrzebne tylko raz na całe życie (np. te odpowiedzialne za rozwój dorosłego osobnika z pojedynczej komórki), inne tylko w wyjątkowych sytuacjach (np. jakiegoś uszkodzenia lub infekcji), jeszcze inne cały czas, ale w różnych ilościach. W związku z tym mechanizmy ekspresji genów podlegają regulacji. Jednym ze sposobów regulacji jest wykorzystanie czynników transkrypcyjnych - są to białka, które potrafią rozpoznać konkretną sekwencję i przyczepić się do niej, a następnie działać jako sygnał dla innych białek informujący je, czy dany gen jest w tej chwili potrzebny czy nie. Jest wiele różnych czynników transkrypcyjnych, reagujących na różne bodźce zewnętrzne i rozpoznających różne sekwencje. Przykładowo, u roślin istnieje czynnik transkrypcyjny DREB1A rozpoznający sekwencję TACCGACAT, która znajduje się przed wieloma genami potrzebnymi w czasie suszy - susza uruchamia białka DREB1A i sprawia, że przemieszczają się one do jądra komórki i łączą się z sekwencją TACCGACAT informując inne białka, że te geny są w tej chwili potrzebne.
 
Mechanizmy regulacji ekspresji genów są bardzo istotne i prowadzi się wiele badań mających na celu poznanie ich dokładnego działania. Jedną z metod, która pozwala dowiedzieć się, gdzie na DNA przyczepił się badany czynnik transkrypcyjny jest metoda ChIP-seq. W jej wyniku otrzymujemy listę sekwencji, do których przyczepiony był badany czynnik w analizowanych komórkach. Po zliczeniu, ile razy każdy fragment pojawił się w wyniku możemy otrzymać plik o następującej konstrukcji:
 
 chr1   1       5
 chr1   2       7
 chr1   3       6
 chr1   4       17
 chr1   5       28
 chr1   6       29
 chr1   7       11
 chr1   8       4
 chr1   9       6
 chr1   10      3
 ...
 
W pierwszej kolumnie mamy chromosom, w drugiej: pozycję na chromosomie, w trzeciej: ile razy dany fragment pojawił się w naszym wyniku (dalej będę nazywać tę wartość poziomem sygnału). W podanym przykładzie pierwszy nukleotyd pierwszego chromosomu pojawił się 5 razy, drugi: 7 etc. Metoda ChIP-seq nie jest idealna i dochodzi do wielu zakłóceń i szumów, w związku z czym pojawiają się niezerowe wartości nawet tam, gdzie czynnika transkrypcyjnego wcale nie było; w podanym przykładzie widać, że wszędzie wartości są wyższe od zera, ale za to przy nukleotydach 4-7 są itotnie wyższe. Zadaniem analizującego dane bioinformatyka jest znalezienie takich miejsc, gdzie poziom sygnału jest znacząco wyższy niż gdzie indziej - są to miejsca, gdzie sądzimy, że faktycznie badany czynnik był związany. Wszystkie pozostałe to nieistotne tło.
 
Twoim zadaniem jest znaleźć w załączonym pliku miejsca, gdzie przypuszczalnie związany był czynnik transkrypcyjny i podać liczbę takich miejsc Na potrzeby zadania przyjmijmy, że za takie miejsce uznamy takie, gdzie poziom sygnału jest co najmniej dwukrotnie wyższy od średniego sygnału na całym genomie. W naszym przykładzie średni sygnał to (5+7+6+17+28+29+11+4+6+3) / 10 = 11.6, poziom dwukrotnie wyższy od średniego jest na nukleotydach 5 i 6. Przyjmujemy, że jeśli wysoki sygnał pochodzi z sąsiadujących fragmentów to pochodzi pewnie od jednego czynnika transkrypcyjnego, ostatecznie więc uznajemy, że w podanym przykładzie mamy do czynienia z jednym miejscem wiązania czynnika transkrypcyjnego.

Odpowiedzią jest liczba znalezionych miejsc (w przykładzie: 1).

ZałącznikWielkość
chip-seq_data.sgr_.txt111.85 KB
Nierozwiązane