Bioinformatyka: przydatny esej na temat bioinformatyki

Bioinformatyka może być zdefiniowana jako gałąź nauki, w której można interpretować, porównywać i analizować dane biologiczne. Pojawiła się jako nowa dyscyplina próbująca rozwiązywać złożone problemy w naukach przyrodniczych, szczególnie w biotechnologii.

Przechwytywanie danych, hurtownie danych i eksploracja danych stały się głównymi zagadnieniami dla biotechnologów i biologów w związku z nagłym wzrostem danych ilościowych w biologii, takich jak pełne genomy gatunków biologicznych, w tym ludzki genom, sekwencje białek, struktury trójwymiarowe białka, szlaki metaboliczne bazy danych, linie komórkowe, informacje związane z różnorodnością biologiczną. Postęp w dziedzinie technologii informacyjnych, w szczególności Internetu, jest wykorzystywany do gromadzenia, uzyskiwania dostępu i rozpowszechniania coraz większych informacji w biologii i biotechnologii.

Bioinformatyka jest bardzo szeroką dziedziną i obejmuje zagadnienia takie jak mapowanie, sekwencjonowanie, porównywanie sekwencji, identyfikacja genów, modelowanie białek, sieciowe bazy danych, wizualizacja i etyka. Jest to temat interdyscyplinarny, który z jednej strony wymaga informacji biologicznych - budowa infrastruktury, az drugiej strony wymaga badań biologicznych opartych na obliczeniach. Wszystko to zależy od dużych zasobów danych eksperymentalnych i pochodnych.

Podstawy bioinformatyki opierają się na technikach obliczeniowych, algorytmach, sztucznej inteligencji, zarządzaniu bazami danych, inżynierii oprogramowania itd. Wszystko to prowadzi do rozwoju zasobów danych społecznościowych i od tego rozpoczyna się rozwój aplikacji bioinformatyki do analizy danych genetycznych.

Bioinformatyka z dużymi bazami danych stała się dla naukowców informatycznych wyzwaniem. To są:

1. Przechowywanie informacji

2. Zarządzanie i integracja danych biologicznych

3. Oprogramowanie do analizy sekwencji

4. Oprogramowanie do przewidywania składania białka

5. Mapowanie oprogramowania do montażu i integracji

6. Porównawcze narzędzia genomiki

7. Eksploracja genów

8. Komputerowe projektowanie leków

Biologiczne zasoby danych:

Ponieważ duża ilość danych jest generowana w szybkim tempie, konieczne staje się poznanie sposobu uzyskiwania dostępu, wyszukiwania i interpretowania tych informacji. Istnieją różne systemy odzyskiwania danych, które zostały stworzone do różnych celów badawczych i są szeroko stosowane. Istnieje kilka międzynarodowych baz danych sekwencji genetycznych, które koordynują, do pewnego stopnia, archiwizację sekwencji biologicznych.

Istnieją setki baz danych sekwencji nukleotydów i białek, które są tworzone do konkretnych celów. Są one klasyfikowane zgodnie z ich funkcją, które są aktualizowane i wymienione w pierwszym wydaniu Nucleic Acids. Research Journal na początku każdego roku. Istnieje katalog baz danych DBCAT, który dostarcza informacji dotyczących bazy danych, gdzie jest ona dostępna i do kogo się zwrócić, aby móc korzystać z tych baz danych.

Obecnie DBCAT wymienia 60 DNA, 22 RNA, 75 białek, 58 genomów, 29 map, 18 białek, 37 literatury i 113 różnych baz danych. Kompleksowe bazy danych repozytorium sekwencji nukleotydów i białek, trójwymiarowych struktur białkowych, które są dobrze znane i szeroko stosowane, rozpowszechniane na całym świecie za pośrednictwem Internetu. Należą do nich banki genów, banki danych białek, narzędzia do wyszukiwania sekwencji itp.

Protein Data Bank (PDB):

Trójwymiarowe struktury białek określone przez badania rentgenograficzne Krystalografia, dyfrakcja neutronowa i NMR zostały zdeponowane wcześniej w Białkowej Databank ustanowionej w National Brookhaven Laboratories, New York, USA.

The Protein Databank jest obecnie obsługiwany przez Research Collaborators of Structural Bioinformatics w Rutgers, USA. Obecnie w bazie danych znajduje się 12500 struktur, jednak 50% struktur jest zbędnych, ponieważ większość struktur ma homologię lub różne rozdzielczości. Około 2500 nowych struktur trójwymiarowych będzie prawdopodobnie dodawanych każdego roku.

Identyfikacja genu / adnotacja:

Najbardziej pilnymi zadaniami do obliczeniowej analizy biokonserwacji są:

1. Znajdź geny w sekwencjach DNA różnych organizmów. Okazuje się, że geny przeplatają się z DNA, który ma inne funkcje, takie jak regulacja genów, i trudno jest zlokalizować dokładne granice samych genów, tak aby można je było wyodrębnić z bazy danych DNA. Programy genetyczne, takie jak GRAIL, Gene-lD, Gene-Parser, Gene-Lang, FGELEH, Genie i Eco-Phrase są sieciami neuronowymi i innymi metodami AI lub statystycznymi do lokalizacji genów w sekwencjach DNA.

2. Gdy gen został poprawnie zidentyfikowany z bazy danych DNA, łatwo jest określić białko, które koduje, przy użyciu dobrze znanego kodu genetycznego. Białko może być reprezentowane jako sekwencja 20-literowych aminokwasów alfabetu.

Ta sekwencja jest określana jako pierwotna struktura białka, zgodnie z kodem genetycznym. Podczas gdy łatwo jest określić pierwotną strukturę białka, struktura 3-D jest nieco trudna do przewidzenia.

W komórce sekwencja białka fałduje się w sposób, który jest unikalny dla każdego białka, nadając mu wyższą kolejność struktury. Zrozumienie tej struktury wyższego rzędu ma kluczowe znaczenie dla zrozumienia funkcji białek.

Sytuacja jest podobna w przypadku cząsteczek RNA. Drugim zadaniem prasowania w celu obliczeniowej analizy bio-sekwencji jest opracowanie metod przewidywania struktury i / lub funkcji nowo odkrytego białka i strukturalnych sekwencji RNA.

Jednym z ogólnych podejść do tego problemu jest przeszukiwanie bazy danych o znanej sekwencji lub sekwencjach, które są podobne do nowo odkrytej sekwencji. W tym przypadku ważne jest, aby wyszukiwać sekwencje, które będą miały podobną strukturę wyższego rzędu i / lub funkcję do nowych sekwencji, zamiast wykonywać bardziej naiwne dopasowywanie ciągów, które tylko zwraca uwagę na dopasowania w strukturze podstawowej. Okazało się to niezwykle trudnym zadaniem.

Analiza sekwencji (gen / białko):

Niektóre sposoby analizy nowej sekwencji DNA obejmują:

1. Użyj sekwencji jako sondy w przeszukiwaniu bazy danych na wypadek, gdyby ktoś już zsekwencjonował ten sam region,

2. Użyj metody, która spróbuje zlokalizować regiony kodujące,

3. Zastosuj metodę, która spróbuje zlokalizować sygnały, takie jak promotory, regiony inicjacji translacji, miejsca przetwarzania RNA i terminatory w regionie o możliwej ramie kodowania,

4. Spróbuj złożyć sekwencję kodującą w ciągły segment i przetłumaczyć,

5. Uzyskane wnioskowane białko powinno zostać użyte jako sonda w przeszukiwaniu bazy danych w celu ustalenia, czy istnieją białka homologiczne. Jeśli zostanie znaleziona podobna sekwencja, ostrożne porównanie pokaże możliwe błędy w sekwencji sondy, które skutkują obciętym produktem, nieprawidłowym wyborem granic intron-egzon i blisko rozmieszczonymi przesunięciami ramki, które wstawiają niekodującą sekwencję.

6. Wyszukaj interesujące regiony w strukturach łodyg i pętli, które są prawdopodobnie ważne w regulacji ekspresji. W szczególności 5 'lub 3' niekodujące regiony, możliwe introny mogą być badane.

Proteomika:

Proteomika lub technologia proteomiczna pochodzi od słowa proteome (zestaw białek kodowanych przez genom). Proteomika obejmuje fizyczną separację białek, biorąc pod uwagę różnice spowodowane przez modyfikacje potranslacyjne, izolację ilościową metodą wysokociśnieniowej chromatografii cieczowej (HPLC) i innych rodzajów kolumn oraz identyfikację białka przez sekwencjonowanie N-końca metodą spektroskopii masowej. Pomiar aktywności białka można badać za pomocą testu funkcjonalnego.

Genomika strukturalna:

Sekwencjonowanie genomów ujawniło szereg białek, których funkcje nie są znane. W takich przypadkach siła struktury ujawniająca odległe zależności ewolucyjne zapewnia narzędzie do identyfikacji biochemicznych ról takich białek. Metody obliczeniowe i eksperymentalne pełnią rolę uzupełniającą, próbując dostarczyć eksperymentalną strukturę lub dobry teoretyczny model dla każdego białka, które ma być kompletne.

Nie jest jednak możliwe określenie struktury promieni rentgenowskich wszystkich wyizolowanych białek. Analiza strukturalna NMR (Nuclear Magnetic Resonance) może w pewnym stopniu pomóc, ale może nie być opłacalna i nie pomoże w rozwiązywaniu białek z dużą liczbą reszt aminokwasowych.

Obecnie w banku danych Brookhaven Protein Data w USA jest prawie trzynaście tysięcy wejść struktur białkowych w porównaniu z 85 000 nie-nadmiarowymi sekwencjami białkowymi w bazie danych Swissprot i około jednego tysiąca tysięcy sekwencji białkowych w bazie danych zasobów białkowych.

Spośród tych trzynastu tysięcy zgłoszeń, istnieje tylko 300-400 unikalnych struktur, które można pogrupować jako rodziny białek o podobnej strukturze i funkcji. W ludzkim proteomie przewidziano, że będą białka o liczbie jeden-lacha, a wszystkie białka mogą zawierać nie więcej niż tysiąc unikalnych fałd białka.

Zatem analiza strukturalna będzie odgrywać istotną rolę w budowaniu modelu trójwymiarowych informacji strukturalnych, a także algorytmów predykcyjnych fałdowania przez nawlekanie sekwencji do znanych fałd białka. Nowo opracowane lub modelowane struktury są porównywane z innymi białkami o znanej strukturze w klasyfikacjach, takich jak SCOP (strukturalna klasyfikacja białek), CATH (klasa, architektura, topologia i homologia) lub FSSP (klasyfikacja fałdowania w oparciu o wyrównanie struktur białek) w celu uzyskania informacje o ich ewolucji i funkcji.

Drug Design (Molecular Medicine):

Rola komputerów w projektowaniu leków opartych na strukturze powstała we wczesnych latach 80. XX wieku, aw ostatnich latach komputery odgrywają coraz większą rolę w procesie projektowania leków. Dzięki szybko rozwijającym się superszybkim komputerom, poprawionej dokładności w przesiewaniu ligandów, ulepszonych kombinatorycznych projektach chemii, wirtualnej eksplozji w dostępności trójwymiarowych informacji strukturalnych i bazy danych sekwencji genomu, techniki obliczeniowe będą nadal zajmować centralne miejsce w wielu różnych aspektach leku proces projektowania i rozwoju.

Projektowanie leków oparte na strukturze (racjonalne projektowanie leków) jest zaangażowanym procesem wykorzystywania informacji zawartych w trójwymiarowych strukturach celów makromolekularnych i powiązanych kompleksów cel-ligand do projektowania nowych leków na różne choroby.

Metody obliczeniowe są wykorzystywane do wydobywania wszystkich istotnych informacji z dostępnych struktur do projektowania skutecznych leków. Wiele z szeroko stosowanych technik, takich jak krystalografia rentgenowska, modelowanie molekularne, NMR itp., Obejmuje obszerne obliczenia. Wyszukiwanie baz danych, dokowanie docelowego liganda i techniki optymalizacji ligandów są kluczowe dla rozwoju związków ołowiu, a wszystkie te podejścia wykorzystują metody obliczeniowe.

Dwu- i trójwymiarowa technika QSAR (Quantitative Structure Activity Relationship), która obejmuje analizę statystyczną zestawu właściwości lub deskryptorów dla szeregu biologicznie aktywnych cząsteczek w celu przewidywania aktywności dodatkowych związków, została znacząco wykorzystana przez komputery modemowe, pozwalając na szybsza i bardziej rygorystyczna analiza.

Projektowanie leków oparte na strukturze komputerowej odegrało znaczącą rolę w ostatnich udanych opracowaniach leków do leczenia AIDS (inhibitorów proteazy HIV) i zapalenia (inhibitory COX-2). Komputery są zaangażowane w prawie każdy aspekt obecnego procesu odkrywania leków.

Tradycyjne podejście polegające na skriningu tysięcy związków pod kątem aktywności w stosunku do celu, w celu znalezienia wiodącego związku, jest szybko zastępowane podejściem HTS (High Throughput Screening). Proces HTS wykorzystuje szybkie roboty komputerowe sterowane komputerowo, znacznie zmniejszając czas badania.

Narzędzia obliczeniowe służące do wydobywania danych z genomu, identyfikacji potencjalnych nowych celów leków, wyjaśniania i / lub prognozowania trójwymiarowej struktury celów z pierwotnej struktury, stanowią rdzeń współczesnej technologii bioinformatycznej. Podejście obliczeniowe będzie nadal istotnym elementem trwającego i przyszłego procesu projektowania i opracowywania leków.

Wniosek:

Komputerowa analiza sekwencji biologicznych ma coraz większy wpływ na biologię. Obliczeniowa analiza biokwasu i narzędzia do przeszukiwania bazy danych stanowią teraz integralną i istotną część tej dziedziny i prowadzą do wielu ważnych odkryć naukowych w ostatniej dekadzie. Większość z nich wynika z przeszukiwania bazy danych, która ujawniła nieoczekiwane podobieństwa między cząsteczkami, które wcześniej nie były powiązane.

Jednak metody te są coraz ważniejsze w bezpośrednim określaniu struktury i funkcji biocząsteczek. Zwykle proces ten w dużej mierze opiera się na wykorzystaniu wiedzy biologicznej i eksperymentu laboratoryjnego w połączeniu z wynikami z kilku różnych dość prostych programów, które przeprowadzają analizę statystyczną danych i / lub stosują proste metody kombinatoryczne.

Kluczowym wyzwaniem na przyszłość jest zbudowanie metod komputerowych, które potrafią interpretować biokony przy użyciu jeszcze pełniejszej integracji wiedzy biologicznej i metod statystycznych. Umożliwi to biologowi działanie na wyższym poziomie w procesie interpretacji, w którym jego twórczość może mieć maksymalną wartość.