Biyoinformatik: Biyoinformatik Üzerine Faydalı Bir Deneme

Biyoinformatik, insanın biyolojik verileri yorumlayabileceği, karşılaştırabileceği ve analiz edebileceği bir bilim dalı olarak tanımlanabilir. Yaşam bilimlerindeki, özellikle biyoteknolojideki karmaşık problemleri çözmeye çalışan yeni bir disiplin olarak ortaya çıkmıştır.

Veri toplama, veri depolama ve veri madenciliği, biyolojideki biyoteknoloji uzmanları ve biyolojik bilim adamları için, insan genomu, protein sekansları, protein 3 boyutlu yapılar, metabolik yol dahil olmak üzere biyolojik türlerin tam genomları gibi, biyolojideki nicel verilerdeki ani büyüme nedeniyle önemli konular haline gelmiştir. veritabanları, hücre hatları, biyolojik çeşitlilikle ilgili bilgiler. Bilişim teknolojisindeki gelişmeler, özellikle internet, biyoloji ve biyoteknolojide sürekli artan bilgileri toplamak, bunlara erişmek ve yaymak için kullanılıyor.

Biyoinformatik çok geniş bir alandır ve haritalama, sıralama, sekans karşılaştırma, gen tanımlama, protein modelleme, ağ veritabanları, görselleştirme ve etik gibi konuları içerir. Bir yandan biyolojik bilgi altyapısı inşasını, diğer yandan da hesaplama tabanlı biyolojik araştırmayı gerektiren disiplinlerarası bir konudur. Bütün bunlar deneysel ve türetilmiş verilerin büyük mağazalarına bağlıdır.

Biyoinformatiğin temeli, hesaplama tekniklerine, algoritmalara, yapay zekaya, veritabanı yönetimine, yazılım mühendisliğine vb. Dayanmaktadır. Tüm bunlar, topluluk veri kaynaklarının geliştirilmesine yol açar ve bu, uygulamalarına, genetik verilerin analizi için biyoinformatiklerin geliştirilmesine başlar.

Biyoinformatik, geniş veritabanları ile bilgisayar bilimciler için birçok zorluğa yol açmıştır. Bunlar:

1. Bilgi saklama

2. Biyolojik verilerin yönetimi ve entegrasyonu

3. Dizi analiz yazılımı

4. Protein katlama tahmin yazılımı

5. Harita montaj ve entegrasyon yazılımı

6. Karşılaştırmalı genomik araçları

7. Gen madenciliği

8. Bilgisayar destekli ilaç tasarımı

Biyolojik Veri Kaynakları:

Çok miktarda veri hızlı bir şekilde üretildiğinden, bu bilgilere nasıl erişileceğini, aranacağını ve yorumlanacağını bilmek zorunlu hale gelir. Farklı araştırma amaçları için oluşturulmuş ve yaygın olarak kullanılan çeşitli veri alma sistemleri vardır. Biyolojik dizilerin arşivlenmesini bir dereceye kadar koordine eden birkaç uluslararası genetik dizilim veritabanı vardır.

Özel amaçlar için oluşturulan yüzlerce nükleotid ve protein sekansı veritabanları vardır. Nükleik Asitlerin ilk sayısında güncellenen ve listelenen işlevlerine göre sınıflandırılırlar. Her yılın başında Araştırma Dergisi. Veritabanına ilişkin bilgileri sağlayan, kullanılabilir olduğu ve bu veritabanlarından yararlanmak için kiminle iletişim kuracağı konusunda bir veritabanı kataloğu DBCAT vardır.

Şu anda DBCAT, 60 DNA, 22 RNA, 75 Protein, 58 Genomik, 29 Haritalama, 18 Protein Yapısı, 37 literatür ve 113 çeşitli veritabanını listeler. Nükleotid ve protein sekansının kapsamlı veri tabanları, iyi bilinen ve yaygın olarak kullanılan, internet üzerinden dünyaya yayılmış üç boyutlu protein yapıları. Bunlar, gen bankalarını, protein veri bankalarını, sekans alma yazılım araçlarını vs. içerir.

Protein Veri Bankası (PDB):

X-ışını Kristallografisi, Nötron Kırınımı ve NMR çalışmaları ile belirlenen üç boyutlu protein yapıları daha önce New York, ABD'deki National Brookhaven Laboratories'de kurulan Protein Veritabanında depolandı.

Protein Databank şu anda ABD’de Rutgers, ABD’de Yapısal Biyoinformatik Araştırma İşbirlikleri tarafından sürdürülmektedir. Halen veri tabanında 12500 yapı bulunmaktadır, ancak yapıların çoğu% 50’si, yapıların çoğu homolog ya da farklı çözünürlüklerdedir. Her yıl yaklaşık 2500 yeni 3 boyutlu yapı eklenmesi olasıdır.

Gen Tanımlama / Açıklama:

Hesaplamalı biyo-dizi analizi için en acil görevler:

1. Çeşitli organizmaların DNA sekanslarında genleri bulun. Genlerin, gen regülasyonu gibi başka fonksiyonlara sahip DNA ile serpiştirildiği ve genlerin kendi sınırlarını tespit etmeleri, böylece DNA veritabanından çıkarılmaları zor olduğu ortaya çıkmıştır. GRAIL, Gene-ID, Gene-Parser, Gene-Lang, FGELEH, Genie ve Eco-Phrase gibi gen bulma programları, sinir ağları ve diğer AI veya DNA sekanslarındaki genleri bulmak için istatistiksel metotlardır.

2. Bir gen DNA veritabanından doğru bir şekilde tanımlandıktan sonra, iyi bilinen genetik kod kullanılarak kodlandığı proteinin belirlenmesi kolaydır. Bir protein, 20 harfli alfabe amino asitlerin bir dizisi olarak temsil edilebilir.

Bu dizi, genetik kod uyarınca proteinin birincil yapısı olarak adlandırılır. Proteinin birincil yapısını belirlemek kolay olsa da, 3-D yapısını tahmin etmek biraz zordur.

Bir hücrede, protein dizisi kendi üzerine her proteine ​​özgü bir şekilde katlanır ve bu da daha yüksek bir yapı düzeni verir. Bu üst düzey yapıyı anlamak, proteinlerin fonksiyonlarını anlamak için kritik öneme sahiptir.

Bu durum RNA molekülleri için benzerdir. Bu nedenle, hesaplamalı biyo-dizi analizi için ikinci acil görev, yeni keşfedilen proteinin ve yapısal RNA dizilerinin yapısını ve / veya işlevini tahmin etmek için yöntemler geliştirmektir.

Bu soruna genel bir yaklaşım, yeni keşfedilen diziye benzeyen bilinen bir dizinin veya dizilerin bir veritabanını aramaktır. Burada, yalnızca birincil yapıdaki eşleşmelere dikkat eden daha naif bir dize eşleştirmesi yapmak yerine, yeni dizilere benzer yüksek dereceli yapıya ve / veya işleve sahip dizileri aramak önemlidir. Bunun son derece zor bir görev olduğu kanıtlandı.

Dizi Analizi (Gen / Protein):

Yeni bir DNA dizisini analiz etmenin yollarından bazıları şunlardır:

1. Birisinin aynı bölgeyi daha önce sıralamış olması durumunda veri tabanı araştırmasında sıra olarak kullanın.

2. Kodlama bölgelerini bulmaya çalışacak bir yöntem kullanın,

3. Muhtemel kodlama çerçevesindeki bölgedeki promotörler, çeviri başlatma bölgeleri, RNA işlem bölgeleri ve sonlandırıcılar gibi sinyalleri bulmaya çalışacak bir yöntem kullanın,

4. Kodlama dizisini sürekli bir kesime birleştirmeyi ve çevirmeyi,

5. Sonuçta ortaya çıkan çıkarılan protein, homolog proteinlerin olup olmadığını belirlemeye çalışmak için bir veri tabanı araştırmasında prob olarak kullanılmalıdır. Benzer bir sekans bulunursa, dikkatli bir karşılaştırma, prob sekansındaki kesilmiş ürün, yanlış intron-ekson sınırlarının seçimi ve kodlama sekansı yerleştirmeyen yakın aralıklı çerçeve kaymalarıyla sonuçlanan olası hataları gösterecektir.

6. İfade düzenlemede büyük olasılıkla önemli olan gövde ve halka yapıları için ilginç bölgeleri arayın. Özellikle kodlayıcı olmayan 5 ′ veya 3 regions bölgelerde, olası intronlar incelenebilir.

proteomiks:

Proteomik veya proteome teknolojisi, proteome kelimesinden türetilmiştir (bir genom tarafından kodlanan protein seti). Proteomik, translasyon sonrası değişikliklerin neden olduğu farklılıkları, Yüksek Basınçlı Sıvı Kromatografisi (HPLC) ile kantitatif izolasyonu ve diğer sütun tiplerini ve kütle spektroskopisi ile N-terminal dizilimi ile protein tanımlamasını dikkate alarak proteinlerin fiziksel olarak ayrılmasını kapsar. Protein aktivitesinin ölçümü, fonksiyonel analiz ile incelenebilir.

Yapısal Genomik:

Genom dizilimi, fonksiyonları bilinmeyen bir dizi proteini ortaya çıkardı. Bu gibi durumlarda, yapının uzak evrimsel ilişkileri ortaya çıkarma gücü, bu tür proteinlerin biyokimyasal rollerini tanımlamak için bir araç sağlar. Hesaplamalı ve deneysel yaklaşımlar, her proteinin tamamlanması için deneysel bir yapı veya iyi bir teorik model sağlama çabasında ücretsiz roller oynar.

Bununla birlikte, izole edilen tüm proteinlerin X ışını yapısını belirlemek mümkün değildir. NMR (Nükleer Manyetik Rezonans) yapısal analizi bir dereceye kadar yardımcı olabilir, ancak maliyet etkin olmayabilir ve çok sayıda amino asit kalıntısına sahip proteinlerin çözülmesinde yardımcı olmayacaktır.

Halen, ABD'de Brookhaven Protein Data Bank, İsviçreprot veritabanındaki seksen beş bin fazlalık olmayan protein sekansına ve Protein Tanımlama Kaynak veritabanındaki yaklaşık bir lakh bin protein sekansına kıyasla, ABD Brookhaven Protein Data Bank'taki protein yapılarının girişleri neredeyse on üçtür.

Bu on üç bin girişten en fazla, benzer yapı ve işleve sahip protein aileleri olarak gruplandırılabilecek en fazla yalnızca 300-400 benzersiz yapı vardır. İnsan proteomunda, bir lakh proteininin olacağı ve tüm proteinlerin binden fazla eşsiz protein kıvrımına sahip olamayacağı tahmin edilmiştir.

Bu nedenle yapısal analiz, üç boyutlu yapısal bilgilerin modellenmesinde ve aynı zamanda bilinen protein kıvrımlarına dizilim göstererek katlanma tahmin algoritmalarının oluşturulmasında önemli bir rol oynayacaktır. Yeni çözülen veya modellenen yapılar, SCOP (Proteinlerin Yapısal Sınıflandırması), CATH (Sınıf, Mimarlık, Topoloji ve Homoloji) veya FSSP (Proteinlerin Yapı Hizalamasına Dayalı Katlama Sınıflandırması) gibi sınıflandırmalarda bilinen yapıdaki diğer proteinlerle karşılaştırılır. evrimi ve işlevi hakkında bilgi.

İlaç Tasarımı (Moleküler Tıp):

Bilgisayarların yapı tabanlı ilaç tasarımındaki rolü 1980'lerin başında ortaya çıkmış ve son yıllarda bilgisayarlar ilaç tasarım sürecinde giderek artan bir rol oynamıştır. Hızla gelişen süper hızlı bilgisayarlarla, ligand taramasında gelişmiş doğruluk, iyileştirilmiş kombinatoryal kimya tasarımları, üç boyutlu yapısal bilgi ve genom sekans veri tabanının varlığında sanal patlama ile birlikte hesaplama teknikleri, ilacın birçok farklı yönünden bir merkez aşaması almaya devam edecektir. tasarım ve geliştirme süreci.

Yapıya dayalı ilaç tasarımı (rasyonel ilaç tasarımı), makromoleküler hedeflerin ve ilgili hedef-ligand komplekslerinin üç boyutlu yapısında yer alan bilgilerin çeşitli hastalıklara yönelik yeni ilaçlar tasarlamak için kullanılmasıyla ilgili bir işlemdir.

Hesaplamalı yöntemler, etkili ilaçların tasarımı için mevcut tüm yapılardan ilgili tüm bilgileri çıkarmak için kullanılır. X-ışını kristalografisi, moleküler modelleme, NMR vb. Gibi yaygın olarak kullanılan tekniklerin çoğu, kapsamlı bir hesaplama gerektirir. Veri tabanı arama, hedef ligand yerleştirme ve ligand optimizasyon teknikleri, öncü bileşiklerin geliştirilmesinde kilit öneme sahiptir ve tüm bu yaklaşımlar hesaplama yöntemlerini kullanır.

Ek bileşiklerin aktivitesini tahmin etmek için bir dizi biyolojik olarak aktif molekül dizisi için bir dizi özellik veya tanımlayıcının istatistiksel analizini içeren 2 ve 3 boyutlu QSAR (Kantitatif Yapı Aktivite İlişkisi) tekniği, modem bilgisayarlar tarafından önemli ölçüde faydalanmıştır. daha hızlı ve daha sıkı analiz.

Bilgisayar destekli yapı bazlı ilaç tasarımı, AIDS (HIV proteaz inhibitörleri) ve enflamasyonun (COX-2 inhibitörleri) tedavisinde son zamanlarda başarılı ilaç geliştirilmesinde önemli bir rol oynamıştır. Bilgisayarlar, günümüzdeki uyuşturucu keşif sürecinin hemen hemen her alanında yer almaktadır.

Bir öncü bileşik bulmak amacıyla, bir hedefe karşı aktivite için binlerce bileşiğin taranmasının geleneksel yaklaşımı, hızlı bir şekilde HTS (Yüksek Verimli Tarama) yaklaşımı ile değiştirilir. HTS işleminde yüksek hızlı bilgisayarla çalışan robotik makineleri kullanılır ve bu da tarama süresini önemli ölçüde azaltır.

Genom verilerinin çıkarılması, potansiyel yeni ilaç hedeflerinin belirlenmesi, hedeflerin üç boyutlu yapısının birincil yapıdan anlaşılması ve tahmin edilmesi için kullanılan hesaplama araçları, günümüzdeki biyoinformatik teknolojisinin merkezinde yer almaktadır. Hesaplamaya dayalı yaklaşımlar, devam eden ve gelecekteki ilaç tasarım ve geliştirme sürecinin önemli bir parçası olmaya devam edecektir.

Sonuç:

Biyo-dizilerin bilgisayar tabanlı analizi giderek daha fazla biyoloji alanında bir etkiye sahip. Hesaplamalı biyo-dizi analizi ve veri tabanı arama araçları artık alanın bütünleşik ve temel bir parçasıdır ve son on yılda çok sayıda önemli bilimsel keşiflere yol açmaktadır. Bunların çoğu, daha önce ilişkili olduğu bilinen moleküller arasında beklenmeyen benzerlikler ortaya koyan veri tabanı araştırmalarından kaynaklanmıştır.

Bununla birlikte, bu yöntemler biyomoleküllerin yapısının ve işlevinin doğrudan belirlenmesinde de giderek önem kazanmaktadır. Genellikle bu süreç, verilerin istatistiksel analizini yapan ve / veya basit kombinasyonel yöntemler kullanan birkaç farklı oldukça basit programın uygulanmasından elde edilen sonuçlarla birlikte, biyolojik bilgi ve laboratuvar deneyinin insan uygulamasına büyük ölçüde dayanır.

Gelecek için en önemli zorluk, biyolojik bilgi ve istatistiksel yöntemlerin daha eksiksiz bir entegrasyonunu kullanarak biyo dizilimleri yorumlayabilen bilgisayar yöntemleri oluşturmaktır. Bu, biyoloğun yaratıcılığının maksimum değerde olabileceği yorumlama sürecinde daha yüksek düzeyde çalışmasını sağlayacaktır.