Referans Genom: Ne Kadar Güvenilir?

Araştırmacı ve klinisyenler genomik varyasyon ve bireylerin sağlık durumları ile ilgili yorum yapmadan önce referans genoma güveniyorlar. Peki bu referans ne kadar güvenilir?

Genom dizileme, gün geçtikçe daha fazla hayatımıza girmeye başladı. Her yıl tüm genomu çıkarılan insanlara onbinlerce yenisi ekleniyor. Human Longevity firmasının kurucusu ünlü Prof. Craig Venter, 2016 yılında 40,000 kişinin tüm genomunu çıkardıklarını ve bu sayının 2020 yılında rahatlıkla bir milyonu geçeceğini belirtiyor.1 Benzer şekilde dizileme platformu üreticilerinden illumina’nın CEO’su Francis deSouza da 2017 yılında dizilenen tüm genomların sayısının 1.6 milyona ulaşacağını tahmin ediyor. 2 Tüm bu gelişmelerden elde edilecek bilgiler, genetik hastalık ve çeşitliliğimizi daha iyi anlamamızı sağlayacak.

6 milyar harften oluşan genomumuzu tek seferde okuyabilecek teknoloji henüz olmadığı için, genetik kodumuzu ufak parçalar halinde okuyabiliyoruz. Bu yüzden dokudan izole edilen DNA’lar önce küçük parçalara ayrılıyor. Ardından tüm bu küçük parçaları ayrı ayrı okunuyor ve tekrar birleştiriliyor. Bu birleştirme sırasında her bir DNA parçasının genom üzerinde nereye denk geldiğini referans genom adı verilen bir diziden öğrenebiliyoruz. Bu durumu yapboz parçalarını birleştirirken, kutu üzerindeki resimden yararlanmaya benzetebiliriz. O resime göre, her bir parçanın resmin hangi posizyonunda olduğunu anlayabiliyoruz.

İnsan genomunu temsil eden bu referans, sıklıkla güncelleniyor. Dünya genelinde kullanılan güncel referansın adı GRCh38. Peki bu referans nasıl elde edildi, kime ait ve ne kadar güvenilir? Bu sorunun cevabı için, 2003 yılına yani İnsan Genom Projesi’nin tamamlandığı yıla dönmemiz gerekiyor.

Kendi Kitabını Okumak: İnsan Genom Projesi

Fikir aşamasının temelleri 1984’te ABD’de atılmaya başlanan İnsan Genom Projesi, ilk defa 1990 yılında projelendirildi. Uluslararası çok sayıda araştırma grubunun ve 2000’den fazla araştırmacının ortak çalışması ile insan genomunun taslağını (draft) çıkarmak tam 15 yıl aldı. Bu sürenin sonucunda, insan genomunun oluşturan 3 milyar harfin büyük bir kısmı, Sanger dizileme yöntemi kullanılarak haritalandı. Yayınlanan genom, gerçek insan genomunun %99’unu kapsıyordu ve şu anda kullandığımız referans genomun temelini oluşturdu. 3

Çalışmada elde edilen bu genom, tek bir kişiden ziyade birden fazla gönüllünün genom verilerinden oluşan mozaik bir yapıdaydı. Bu gönüllüler, projeye katılan laboratuvarların yakınlarından seçildi ve kimlikleri asla yayınlanmadı. Aslına bakılırsa, katılımcıların kendileri dahi kendi genomlarının referans genomda yer alıp almadığını hala bilmiyorlar.

1989: İnsan Genomu Projesi’nin temellerinin atıldığı New York’taki Cold Spring Harbor Laboratuarı’ndaki Banbury toplantısı. Francis Collins ve James Watson en üst sırada yer alıyor. 4
İlk taslak oluşturulduktan sonra, referans genomun “doğru olması için” Genome Reference Consortium (GRC) adlı kurum görevlendirildi. Bu kurum, ABD’deki The National Centre for Biotechnology Information (NCBI) ve Washington Üniversitesi’ndeki The Genome Institute ile İngiltere’de yer alan Wellcome Trust and European Bioinformatics Institute gibi kurumlar ile birlikte çalışarak, referans genomu güncel tutmak için çalışmalar yürütmeye başladı. Kurumun görevi, yenilenen teknoloji ile referans genomdaki hataların ayıklanmasını sağlamak ve boşlukların doldurulmasını sağlamaktı. Bu oldukça önemli bir görevdi, çünkü tüm genetik testlerde referans genom temel alınıyordu. Referans genomdaki en ufak hata, aynı zamanda genetik testlerin sonuçlarını da etkiliyordu.

Genom Güncelleniyor: Build 38

İlk taslak genomumuz, ilk elde edildiği gibi kalmadı. Kullanılan yöntem gereği her 100.000 bazda 1 bazlık hata olabileceği öngörülüyordu. Yapılan her çalışma ile bu hatalar ve boşluklar giderildi.  Her yıl taslak genomumuz genomik güncellemelerle düzeltiliyordu. 2009 yılından itibaren, referans genom için tıpkı bir bilgisayar uygulaması gibi,  major ve minor versiyonlar çıkarılmaya başlandı. Bundan önceki referans genomda 13 defa “patch” adı verilen ufak değişiklikler yapıldı.

İnsan Genom Projesi’nden sonra oluşturulan referans genomların zaman çizelgesi. Şu anda en güncel referans GRCh38’in 11. güncellemesi. Sadece bu yıl içinde GRCh38’e 3 defa güncelleme gerçekleştirildi.

Güncel referans genomumuz GRCh38 (Genome Reference Consortium Human) 2014’te yayınlandı. Bu dizi, hala kullanılan en güncel referans olma özelliğini taşıyor.  Son versiyon olsa da biryandan güncellemelere devam ediliyor. Son versiyon olan GRCh38.p11’e gelinceye dek toplamda 11 güncelleme gerçekleştirildi. Yeni nesil dizileme teknolojilerinin desteği ile GRCh38 ile büyük oranda güvenilir bir referans durumda. Bu sebeple, İngiltere’deki The 100,000 Genomes Project gibi yürütülen bir çok kapsamlı genomik projelerde bu referans kullanılıyor.

GRCh38’ın eksikleri neler?

GRCh38, en güncel hali ile dünya genelinde kullanılsa da, İnsan’ı temsil edecek kusursuz bir referans genom olmaya hala uzak. Kullanılan bu dizide hala bazı teknik sıkıntıları bulunuyor.

Mozaik Yapı

Güncel referansın temelini hala İnsan Genom Projesi’nden gelen ilk versiyonlardan alıyor. Bu sebeple, önceki referansın sahip olduğu sorunları da miras olarak üzerinde taşıyor. Bunun başında, referansın temsil gücü geliyor. Daha önce dediğimiz gibi ilk referansın oluşturulmasında sadece bir düzine insan kullanıldı. Bu sebeple insanlığın tüm çeşitliliğini temsil eden bir referans değil. Genomun bazı bölgeleri, farklı popülasyonlar arasında tek bir referans dizi ile gösterilemeyecek kadar çeşitlilik gösterebiliyor.

GRCh38 üzerinde yapılan düzenlemeler. Kırmızı oklar alternatif lokus’ları, turuncu yuvarlaklar yapılan düzeltmeleri, mavi yuvarlaklar ise yeni eklenen bölgeleri gösteriyor.5
Tüm insanlığı “olabildiğince” temsil edebilmesi için GRC (Genome Reference Consortium) referans genomun bazı bölgelerine yönelik alternatif diziler de (alternative loci) yaratıyor. GRCh37’de bu alternatif dizilerin sayısı 60 iken, GRCh38’de bu sayı şimdiden 261’e ulaşmış durumda.

Güncel ve önceden kullanılan referans genomarın hepsi mozaik yapıda bulunuyor. Örneğin 3. kromozomun uzun kolu bir kişiden alınırken, kısa kolu başka bir kişiden alınmış olabiliyor. Eğer bu kişilerde farklı yapısal genomik değişikler var ise bu parçalar birbiri ile uymayabiliyor, doğada olmayan bir kombinasyona yol açabiliyor veya birleşme noktalarında boşluklara neden olabiliyor. Yani, referanstaki kromozomların hiç biri, baştan aşağıya tek bir kromozomu temsil etmeme riski taşıyor.

Boşluklar

Referans genom ile yaşanılan diğer bir sorun da “boşluklar”. Genom üzerinde henüz genetik kodunu bilmediğimiz 160 Milyon bazlık karanlık bir bölge bulunuyor. Bu boyut, tüm genomun neredeyse %4’üne denk. Boşluk bölgelere ait henüz bir bilgimizin olmaması, bu bölgelerin dizilenmesinin zor olmasından kaynaklanıyor. Tekrarlı bölgelerin sık olduğu ve GC oranının fazla olduğu sentromer ve telomer bölgeleri, eksik bölgelerin büyük bir kısmını oluşturuyor. Neyse ki, yeni dizileme teknolojileri ile eksikler her yıl biraz daha kapanıyor.

Bir sis perdesi altında yer alan sentromer ve telomer bölgelerinin, hücresel işlemlerdeki kritik görevlerini bir süredir biliyoruz. Birçok araştırmacı, kişiler arasındaki genetik farklılığın da büyük bir kısmının bu gizli bölgede saklandığını düşünüyor. 6 Kim bilir, belki şu anda açıklayamadığımız bir çok konuyu, bu sis perdesi kalktığında açığa kavuşturabileceğiz.

Okuma Hataları

Referans genomun dizi bilgileri, dizileme alanında gold standart olarak kabul edilen Sanger Dizileme yöntemi’ne dayanıyor. Yönteme göre okunan her bir bazın okunma oranındaki doğruluk %99.99 oranında. Bu oran, günümüz yeni nesil dizileme teknolojilerinin değerlerinden bile 10 kat fazla. Ancak, insan genomu 3 milyar harf içeriyor ve bu durumda %99.99’luk doğrulukta bile binlerce hatanın referansta olabileceği anlamına geliyor.

Tahmini sayısı yüzbinleri bulan okuma hatalarının belirlenmesinde GRC, kullanıcılardan gelen geribildirimleri kullanıyor. Web sitesindekiReport an Issue” kısmından, kullanıcılar tespit ettiği olası hataları raporlayabiliyor. Gelen bildirimleri inceleyen GRC, belli aralıklarla patch’ler yayınlayarak hataları minimuma indiriyor. Büyük düzeltmeler gerektiğinde ise bunu Major versiyon olarak yayınlayabiliyor. Şu anda bir sonraki yeni referans olan GRCh39’un hazırlıkları sürüyor.

Güncel versiyonda kullanıcılar tarafından raporlanan hataların kromozomlara göre dağılımı. Bu hataların büyük kısımlarını boşluklar ve tek nokta farklılıkları oluşturuyor.7
Kullanıcılardan gelen bildirimlerle GRCh37 ile GRCh38 arasında 8000 noktada değişiklik gerçekleştirildi. Bu noktaların çoğu da, klinik açıdan öneme sahip genlerde yer alıyordu. Kapsamlı düzeltmelere rağmen daha onlarcasının şu anki referansta da olduğu tahmin ediliyor. Bu tür olası hatalar, hastalarda çıkan mutasyonların klinik yorumlamaları oldukça zorlaştırıyor.

Okuma hatalarının önüne geçmek için GRC yeni teknolojileri de kullanmayı amaçlıyor. Bu bağlamda yeni referans genomda  PacBio ve Oxford Nanopore altyapılarından da yararlanılması planlanıyor. GRC şimdiden MUC5AC geninde yer alan bazı hataları PacBio platformundan gelen verilere göre farkederek düzeltti.8 Bu cihazların kullanımı arttıkça, daha fazla hata tespit edilip düzeltilebilecek.

Yeni Alternatifler: Platinyum Genom

Varolan referansın güncellemeleri süredursun, bazı araştırma grupları yeni referanslar oluşturma çalışmalarına girdiler. California merkezli dizileme platformu üreticisi Pacific Biosciences (PacBio), kullandıkları yeni teknoloji ile 2014 yılında kendi referans dizisi CHM1‘i oluşturduğunu duyurdu. 9

Bu yeni dizi 2 yönden güncel referanstan ayrılıyor. Bunlardan birincisi, hydatidiform mole hücre hattı kullanılması, ikincisi de uzun okumalı yeni nesil dizileme teknolojisi kullanılarak referansın sıfırdan oluşturulması.

Hydatidiform mole, Türkçe’de “Mol Gebelik” olarak; halk arasında da “Üzüm Gebeliği”  olarak bilinen özel bir durum. Bu tür gebelikte, herhangi bir sebeple DNA’sını kaybeden yumurtanın bir sperm tarafından döllenmesi gerçekleşiyor. Yumurtada tek set kromozom bulunduğu için, sperm tüm kromozomlarını kopyalayarak kromozom sayısını 46’ya tamamlıyor. Bu durumda, tamamen sperm DNA’sına sahip ancak haploid özellikte bir insan hücresi oluşuyor. Bu hücre her ne kadar canlı bir insan oluşturmasa da, araştırmacılar için bulunmaz bir imkan sağlıyor.

Referans dizisinin oluşturulduğu dizileme çalışmalarında, bir noktada tespit edilen varyasyonların okuma hatasından mı yoksa heterozigotluktan mı geldiğinin anlaşılması zor olabiliyor. Bu özel hücre hatları sadece haploid özellikte olduğundan, olası karışıkları da tamamen ortadan kaldırıyor.

Öte yandan, yeni nesil dizileme çalışmalarındaki okuma uzunluğunun artması, oluşturulan referansın daha büyük ve daha az sayıda parçadan (contig) oluşturabilmesini sağlıyor. Ne kadar az parça, o kadar az hata oranı.  Örnek vermek gerekirse, güncel referans genomu oluşturan bu parçaların ortalama boyu 144.000 baz iken, CHM1’de bu parçaların boyutu 4.4 milyon baz. Genomu oluşturmak için az sayıda parça yeterli olunca, mozaik olmayan bir genomu da yaratmak mümkün oluyor. Bu da daha az hata ve daha az boşluk demek.

Platinyum genom gibi alternatif çözümler, varolan referansın yerine geçmeyi amaçlamıyor. En azından şimdilik. CHM1 ve yenilenmiş hali olan CHM13, varolan referansın doğrulanmasında ve zorlu bölgelerde tamamlayıcı olarak kullanılıyor.

Gelecek

Mevcut insan referans genomu bizim için büyük önem taşıyor. Geçen süreçte evrimimizi ve gelişimimizi inceleyen sayısız çalışma bu diziler tarafından mümkün hale geldi. Küçük eksik ve hatalarına rağmen insan çeşitliliği ve hastalıklarının incelenmesinde büyük katkısı oldu. 

Daha fazla genom dizilendikçe, insan çeşitliliğinin tam boyutu daha da belirginleşecek ve daha doğru bir referans oluşturacağız. Başlangıçta yeni bulgular daha fazla karışıklık yaratacak olsa da, dünyadaki genomik çalışmalardaki teknoloji ve işbirliğindeki ilerlemelerle ilk kusursuz genomun oluşturulmasına giderek daha yaklaşacağız.

Referanslar
1.
Seven Billion Genomes. Genome Available at: http://genomemag.com/seven-billion-genomes/#.WZP-c63BLUY. (Accessed: 16th August 2017)
2.
EmTech: Illumina Says 228,000 Human Genomes Will Be Sequenced This Year. Emtech Available at: https://www.technologyreview.com/s/531091/emtech-illumina-says-228000-human-genomes-will-be-sequenced-this-year/. (Accessed: 16th August 2017)
3.
Human Genome Sequencing Consortium, I. Finishing the euchromatic sequence of the human genome. Nature 431, 931–945 (2004). [Source]
4.
Human Genome Project: Twenty-five years of big biology. Nature Available at: https://www.nature.com/news/human-genome-project-twenty-five-years-of-big-biology-1.18436. (Accessed: 22nd August 2017)
5.
Human Genome Overview. NCBI Available at: https://www.ncbi.nlm.nih.gov/grc/human. (Accessed: 19th August 2017)
6.
Getting to Know the New Reference Genome Assembly. Bio-IT World Available at: http://www.bio-itworld.com/2014/1/27/getting-know-new-reference-genome-assembly.html. (Accessed: 19th August 2017)
7.
Human Genome Issues. Genome Reference Consortium Available at: https://www.ncbi.nlm.nih.gov/grc/human/issues. (Accessed: 23rd August 2017)
8.
The Hunt for a New Human Reference Genome. Bio-IT World Available at: http://www.bio-itworld.com/2014/6/30/hunt-new-human-reference-genome.html. (Accessed: 23rd August 2017)
9.
Single haplotype assembly of the human genome from a hydatidiform mole. PacBio Available at: http://www.pacb.com/publications/single-haplotype-assembly-of-the-human-genome-from-a-hydatidiform-mole/. (Accessed: 23rd August 2017)

Moleküler Biyolog ve Genetikçi. İstanbul Teknik Üniversitesi’nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor. R programlama dili üzerine R Konsol adlı blogda yazıyor.

Leave a reply:

Your email address will not be published.

Site Footer