Yeni Nesil Dizileme – Yeni Nesil Zorluklar

Genetik alanında son 10 yıla damgasına vuran teknolojilerden biri Yeni Nesil Dizileme ya da literatürde bilindiği adıyla Next Generation Sequencing. Yöntem, ilk ortaya çıkmaya başladığı 2005’ten bugüne kadar teknolojik açıdan büyük bir evrim geçirdi. Üretilen veri miktarı arttıkça maliyetleri düştü. Haliyle kullanımı da yaygınlaştı. Yeni nesil dizileme sistemlerinin genom projelerinde artık önemli bir rolü bulunuyor. Öyle ki, Dünya geneline yayılmış binlerce cihaz ve yeni firmaların yaygınlaşması ile yeni nesil dizileme artık “yeni” de sayılmıyor.

Tüm dünya üzerinde kayıtlı cihazların sayısını tespit etmek mümkün değil. Ancak en büyük üreticilerden illumina‘nın 2016 yılının sonunda 10.000’e yakın kurulu cihazı olduğu biliniyor. 1 Tüm üreticiler ile birlikte dünyadaki toplam cihaz sayısının bunun 2-3 katı olabileceği tahmin ediliyor. Sektörde illumina dışında, Roche, ABI Life Tech. gibi köklü firmaların yanı sıra Oxford Nanopore ve Pacific Biosciences gibi yeni oyuncular da bulunuyor.




Son 10 yıldır bu teknolojiye yönelik tüm Ar&Ge çalışmalarında “Daha büyük genomik veriyi daha ucuza elde etmeyi” amaçlandı. Aslına bakılırsa bu hedefte büyük başarı sağlandı. 2009’dan bugüne kadar insanın tüm genom dizileme maliyeti 200 kat azalarak 2016 yılında 1000$’ın altına indi. 2

Son birkaç yıldır ise bu evrim başka bir alana daha yöneldi: “Kullanımı daha kolay sistemler yaratmak“. Üretici firmalar, artık ağırlıklı olarak daha kullanıcı dostu sistemler oluşturmaya yönleniyor. Örneğin illumina’nın yeni NextSeq, MiSeq ve Miniseq sistemleri, önceden hazırlanmış kartuşların cihaza takılması ile hazır hale geliyor. Hazır bir kütüphanenin cihaza verilmesi ile dizilemenin başlatılması arasındaki süre sadece 3-5 dakika. Benzer şekilde Thermo Fisher’ın yeni sistemi Ion S5 ve Ion S5 XL de firmanın önceki sistemlerine göre çok daha basit ve kısa laboratuvar uygulamalar ile çalıştırılabiliyor.

Kullanım kolaylığı, artan veri çıktısı, azalan maliyetler son kullanıcılar için büyük bir artı olsa da, bu yeni teknolojinin beraberinde getirdiği ve hala tam olarak çözemediği sorunlar da bulunuyor. Bu sorunlar, uygun numunelerin belirlenmesinden, çalışma sonrasındaki verilerin saklanmasına kadar geniş bir yelpazede yer alıyor.

Örnek Seçimi ve Paraffinli Dokular

Dizileme çalışmalarında her zaman taze doku ile çalışmak tercih edilir. Ancak çok sayıda örnek içeren büyük çalışmalarda tüm dokuları taze şekilde saklamak mümkün olmayabilir. Bu durumda düşük maliyeti ile FFPE (formalin-fixed paraffin-embedded) diğer bir deyişle parafinli dokular tercih edilir. Parafin içine hapsedilen dokular, uzun süre boyunca oda sıcaklığında bozulmadan saklanabilir. Bu şekilde, aynı doku ilerdeki çalışmalarda tekrar tekrar çalışılabilir. Bu yöntem o kadar popülerdir ki Dünya genelindeki doku bankalarında 400 milyondan fazla parafin kaplı doku olduğu tahmin ediliyor. 3 Bu miktar 2012’ye ait. Günümüzdeki değerin ise 1 milyara yaklaştığı tahmin ediliyor. 4

Klinik örneklerin uzun süreli tutulmasına olanak sağlasa da, zamanla parafin dokulardaki DNA ve RNA’nın hasar aldığı, kimyasal modifikasyonların meydana geldiği bilinen bir durum. Yeni nesil dizileme uygulamalarında da bu modifikasyonlar çoğu durumda elde edilen sonuçlarda farklılıklara neden olabiliyor. 2014 yılında, parafin ve taze doku ile yapılan ekzom dizileme sonuçlarının karşılaştırmasında, tespit edilen varyantların sadece %70-80’inde uyum görülmüştür. RNA dizileme çalışmalarında da iki doku arasında tüm genlerin %6’sının ifadesinde anlamlı farklılıklar olduğu tespit edilmiştir. 5 Ayrıca kapsamlı çalışmalarda da FFPE örneklerde çok çeşitli hasarların gözüktüğü raporlanmıştır. Tek zincirde görülen kırılmalar, zincirler arası crosslink oluşumları, tek zincirli DNA birikimi gibi çok sayıda problemler oluştuğu biliniyor. 6

Bu olası hasarlar dikkate alınmadığında, analiz sonuçlarını da etkileyebiliyor. Her ne kadar, çoğu üreticinin FFPE örneklerine özgü kütüphane hazırlama kitleri bulunsa da, bunlar sorunları ortadan tamamen kaldırmaktan ziyade sadece olası yanlış pozitiflerin oranını azaltabiliyor. Bu sebeple, her bir dizileme çalışması öncesinde örneklerin “detaylı” kalite kontrolünün yapılması ayrı bir önem kazanıyor.

Kütüphane Hazırlığı

Bu işlem, izole edilmiş DNA / RNA’nın işlenip cihaz tarafından okunmaya hazır hale gelmesini sağlayan işlemlerin bütününe deniyor. Alandaki biyoteknoloji firmalarının en rekabetçi olduğu alanlardan biri de bu kütüphane hazırlığı.

NEB, Promega ve Zymo Research gibi aslında cihazı olmayan bir çok köklü firma, varolan dizileme platformlarına yönelik kit geliştiriyorlar. DNA çalışmaları için ABD ve Avrupa’daki örnek başı maliyet 40-60 $ civarında. Bu tutara sarf ve personel maliyetlerini eklediğinizde bu tutar 100 $’a yaklaşıyor. Türkiye’de ise gümrük vergisi, distribütör payı ve diğer ek masraflar ile birlikte bu maliyetler 2 katına çıkabiliyor.

Elbette, bu kitlerin alınması da şart değil. En zorlu örneklere yönelik hazırlanmış protokoller bile var. Bu protokoller uygulanarak, kit almadan da -en azından kütüphane hazırlama kiti almadan- örnekleri hazırlamak mümkün. 7

RNA kütüphane hazırlığının maliyetleri DNA çalışmalarına göre şu anda daha fazla. Saflaştırma gibi ek işlemler ve uygulama süresinin daha uzun süre olması sebebiyle DNA maliyetlerine göre örnek başı 2-3 kat fazla tutabiliyor. Bu durumda, çalışma maliyetinin önemli bir kısmını oluşturuyorlar.

Öte yandan kütüphane hazırlama basamağı insan hatasının en fazla görülebileceği basamak. Bazı protokoller 3 günden fazla sürebiliyor. Bu süreçte yapılacak en ufak bir hata, tüm örneklerin çöpe gitmesine ve kit maliyetlerine yenilerinin eklenmesine neden olabiliyor. Bu durumu öngören firmalar, kütüphane hazırlama işlemlerini de otomatize hale getirmeye çalışıyor. illumina’nın 3 yıl önce piyasaya sürdüğü -geçtiğimiz yıl da piyasadan çektiği- Neoprep gibi otomatize robotik sistemler, tüm bu işlemleri insan etkisini minimize ederek gerçekleştirebiliyor. Piyasada bu işlemleri sağlayan çokça ürün (örn. Tecan, Beckman Coulter vs) bulunuyor.

Bu basamaktaki bir diğer sorun ise genellikle örnek miktarı az olduğunda ortaya çıkıyor. Bazı durumlarda, çok küçük bir doku parçası veya ufak bir toprak parçası üzerinden çalışma yapmak gerekebiliyor. Bu durumda, elde edilen DNA miktarı da az oluyor. Standart kütüphane hazırlık kitleri, çok az miktardaki örneklerde sıkıntı yaratabiliyor.

Yakın gelecekte, tek hücre RNA dizileme (“single-cell RNA sequencing”) ile tek hücre transkriptom profili çıkarma yöntemleri yaygınlaşacağını öngören firmalar, az miktar DNA için optimize kitler geliştirmeye başladılar.  Çok yaygın olmasa da illumina gibi qiagen gibi firmaların hali hazırda ürünleri bulunuyor.

Ayrıca, 10X Genomics firmasının geliştirmiş olduğu Chromium gibi sistemler de mevcut. Bu sistemler, doğrudan hücre kültürünü alıp, her birindeki RNA’yı ayrı ayrı etiketlemeyi sağlıyor. Etiketlenen RNA’lar herhangi bir dizileme platformunda dizilendiğinde, binlerce hücrenin transkriptomik profilini 1 hücre çözünürlüğünde elde edebiliyor.

Okumanızı Nasıl İstersiniz? Kısa, Uzun?

Yeni nesil dizileme uygulamalarında görebileceğiniz genetik farklılıklar, dizileme platformlarının okuma uzunluğu ile sınırlıdır.  Yani, 500 bazlık bir tekrarlı bölgeyi veya büyük yapısal değişiklikleri sadece 150 bazlık okuma yapan bir cihazla okumanız zordur. Öte yandan sadece bir bazlık SNP’in genotiplemesi yapılacaksa, kısa okuma yapan cihazlar maliyet açısından daha uygun olacaktır. Yeni bir organizmanın tüm genomu çıkarılırken (de novo assembly) her iki yöntemi kombine ederek kullanmak gerekir.

2014 yılına ait verilere göre genomik alanda üretilen verinin %90’ından fazlası illumina’nın cihazları tarafından üretiliyor. 8 Firmanın şu andaki tüm platformları kısa okumalar yapabildiği için (50 – 600 bp) eldeki verilerin büyük bir kısmı kısa okumalara ait. Bu veriler, RNA dizileme ve SNP genotipleme için yeterli olsa da büyük boyutlu değişiklikleri tespit etmek için yetersiz kalıyor.

Uzun okuma yapabilen cihazlar ise son 4 yıldır giderek popülerleşmeye başlamış durumda. Pacific Biosciences‘ın  RSII ve Sequel platformları veya Oxford Nanopore Technologies‘in ürettiği MinION ve GridION bunlar için iyi bir örnek. Ortalama 20.000 bazlık okumalar yapabilen bu cihazlar bazı durumlarda 100.000 bazlık okumalar dahi yapabiliyorlar. 9 Özellikle bir avuç içine sığabilecek kadar küçük MinION’ların popülaritesi oldukça artmış durumda. Öyle ki küçük boyutu sayesinde Uluslararası Uzay İstasyonu’na çıkarılarak, yerçekimsiz ortamda ilk yeni nesil dizileme çalışmasında da başrol oynadı.

illumina MiSeq dizileme cihazı ile Oxford Nanopore dizileme cihazının boyut olarak karşılaştırması.

Uluslararası Uzay İstasyonu’nde uçuş mühendisi Kate Rubins, MinION dizileme cihazı’nda (tabletin alt kısmındaki küçük gri kutu) ilk dizileme çalışmasını başlatıyor. [Kaynak]
Bu uzun okumalar beraberinde başka sorunları da beraberinde getiriyor. Özellikle de DNA izolasyonu basamağında. Piyasada ağırlıklı  olarak kullanılan ve kısa okuma yapan cihazlar, kullanılan DNA’nın yapısal olarak bir bütün olmasına ihtiyaç duymuyor. Yani tüm genom 1000  – 2000 bazlık parçalar halinde izole edilse bile kısa okuma yapan cihazlar tarafından kullanılabiliyor. Bu sebeple, hali hazırdaki DNA izolasyon kitlerinin çoğunda parçalanmamış DNA elde edilmesi pek de önemli değil. Ancak bu durum, uzun okuma yapan cihazlar için önemli bir sorun. Bu cihazlar, uygulama sırasında bütün DNA ipliklerini tek seferde okuduğu için DNA izolasyonu sonrasında da parçalanmamış uzun DNA parçalarına (100.000+ baz) ihtiyaç duyuyor.

Yeni ortaya çıkan ihtiyaçlar yüzünden, kit üreticileri de DNA izolasyonu sırasında parçalanmayı minimize eden veya izolasyon sonrasında uzun parçaları (100.000+ baz) zenginleştirecek kitlerin üretilmesine başlamış durumda. Daha iyi izolasyon kitleri geliştirildikçe, uzun okuma sağlayan kitlerden daha fazla da verim almaya başlayacağız.

Veri Analizi ve Depolaması

Dizileme alanındaki gelişmeler ile üretilen veri miktarı, yakın zamanda Moore Yasası‘nda öngörülen büyümeyi geçti. Diğer bir deyişle, dizileme alanında üretilen verinin hızı, bilgisayar  işlemci gücündeki geliştirmelerinden daha hızlı ilerliyor.

Moore Yasası, bilgisayar işlemcilerinin transistör sayılarını her iki yılda bir katladıklarını söyler. Bu durum, her yıl aynı fiyata önceki yıla göre 2 kat daha hızlı bir sistem alınabileceği şeklinde veya her yıl ortalama bilgisayar işlem gücünün 2 kat arttığı şeklinde yorumlanabilir.

Tipik bir ekzom ham verisi yaklaşık 3 GB, tüm genom ham verisi ise 80 GB boyutundadır. İşlenmiş ham verileri birlikte saklandığında 50x derinliğindeki bir genomun boyutu 100 – 150 GB’ı bulabilir. Özellikle klinik laboratuvarlarda ayda 10 tüm genom çalışıldığını düşünürsek, her ay fazladan 1 TB’lık veri depolaması ihtiyacına denk gelir. Elbette bu veriler, küçük ve orta ölçekli laboratuvar için geçerli. Broad Institute gibi yoğun genomik çalışmalar gerçekleştiren enstitülerde her saat 5 tüm genom dizilemesi sonucu verilmektedir. 10 Bu, yılda 4000 TB’lık (4 Petabyte) veriye denk geliyor. Her geçen gün, yeni verilerin de eklenip, ihtiyacın birikimli arttığını düşünürsek, veri depolamanın ciddi bir sorun haline geldiği net bir şekilde anlaşılır.

Her ne kadar ham veriler daha az yer kaplayan işlenmiş verilere (örn. vcf) dönüştürülebilse de, araştırmacılar, tekrar analiz etmek ihtiyacı duyduğunda kullanmak üzere ham verilerin saklanmasını tercih ederler.

Verilerin saklanması bir yana, bu verilerin analizi de bir başka önemli sorun. Hedefli dizileme gibi küçük kapsamlı çalışmalar için standart masaüstü bilgisayarlar yeterli olurken, çok örnek içeren geniş kapsamlı projelerin veya genom seviyesindeki dizilemelerin analizi için daha gelişmiş bilgisayar kurulumları (workstation) veya bulut sunucu hizmetleri gerekebilir.

Bu alanda analizi sağlayabilecek ve bilgisayara ücretsiz kurulabilecek çok sayıda program mevcut. Bu bağlamda OMICtools sitesinde kayıtlı 3000’den fazla uygulama yer alıyor. Ne yazık ki ücretsiz bu programların büyük bir bölümünün bir görsel arayüzü yok. Bunun için bilgisayarınızdaki komut satırından (veya terminal’den) komut yazarak çalıştırmanız gerekiyor. Aslında bu işlem de o kadar zor sayılmaz. Gelecek günlerde bunlarla ilgili yazı dizisi paylaşacağım. Eğer komut yazmak istemiyorsanız, görsel arayüzü bulunan ancak ücretli olan çokça program mevcut. CLC Genomics Workbench ve Strand NGS analiz programları arasında en bilinenlerden bir kaçı.

Bulut üzerinden hizmet veren uygulamalar, gerekli tüm programları içinde barındırıyor. Sizin çoğunlukla yapmanız gereken şey, bu programları sürükle-bırak ile birbirine bağlayarak bir analiz akışı (analysis pipeline) oluşturmak oluyor. Görsel: Seven Bridges Platform

Bir de bilgisayarınıza yüklemeden, web üzerindeki bir sunucuya yükleyerek analizleri bulut sunucuda yaptırabildiğiniz hizmetler de var. Bunlar arasında tamamen ücretsiz olan Galaxy Project veya ücretli olan Seven Bridges Platform gibi örnekler var.

Klinik Yorumlama

Bireyler arası genetik benzerliğin %99.5 olduğu biliniyor. 11 Bu oran yüksek gibi gözükse de, 3 Milyar bazlık genom içerisinde 3-4 milyon noktada farklılığa (mutasyona) denk geliyor. Bu mutasyonlar sizi siz yapan tüm özellikleri belirliyor. Ancak bunlar arasında bazıları, belli hastalıklara yönelik risk oluşturabiliyorlar. Bu kadar büyük bir yığın içinden hastalıkla ilişkili mutasyonun bulunması, kelimenin tam anlamıyla samanlıkta iğne aramaya eşdeğer bir uğraş. Mutasyon sayısını azaltmak için tüm genom yerine sadece kodlayan bölgelere bakılabiliyor. Bu amaçla ekzom dizileme yapıldığında dahi, hala elinizde 10.000 – 20.000 mutasyon kalıyor.

Klinik genetikçilere bu noktada yardımcı olmak için çok sayıda yönerge (guideline), veritabanı, ve uygulama bulunuyor.

American College of Medical Genetics, College of American Pathologists ve Association for Molecular Pathology gibi kurumların, bir mutasyon incelenirken nasıl yaklaşılacağını, hangi parametrelere bakılacağını ve nasıl sınıflandıracağını belirten yönergeleri bulunuyor. Bu şekilde, bir mutasyonu patojenik, muhtemel patojenik, belirsiz etkili (variant of uncertain significance), muhtemel zararsız, etkisiz gibi kategorilere ayrılabiliyor. Bu yönergelerde, klinisyenleri en zorlayanlar, etkisi bilinmeyen varyantlar (VUS) oluşturuyor.

Bu noktada, klinik veritabanları yardıma koşuyor. ClinVar gibi halka açık veritabanlarında, başka laboratuvarlarda patojenik olduğu raporlanan mutasyonlar listeleniyor. Bu şekilde, bir mutasyonun olası etkisi laboratuvarlar arasında paylaşılabiliyor. Ne yazık ki, bazı mutasyonlar için farklı laboratuvarlar farklı yorumlamalar yükleyebiliyor. Bir laboratuvarın “patojenik” dediği mutasyonlar, bir başka laboratuvar tarafından “muhtemel etkisiz” olarak etiketlenebiliyor. Bu veri uyuşmazlığı, ücretli veritabanlarında daha az görülüyor. Hali hazırda Human Genome Mutation Database gibi her mutasyonun tek tek incelendiği ve etkileri daha düzgün raporlanan veritabanları da mevcut.

Genel kullanıma açık ClinVar veritabanında çok sayıda mutasyonda birbiri ile uyuşmayan (conflicting interpretations) veya eksik özellikler (not provided) raporlandığı gözüküyor.

Dizileme platformları yaygınlaştıkça, klinik laboratuvarların birbirlerine karşı en önemli artıları, sahip oldukları veritabanları oluyor. Bu sebeple bu veriler, ya paylaşılmıyor ya da ücretli olarak sağlanıyor. Centogene firmasının kendi veritabanı CentoMD de buna bir örnek.

Bir mutasyonun etkisini anlamanın diğer bir yolu da bilgisayar uygulamalarından geliyor. PolyPhen, SIFT veya Provean gibi uygulamalar, mutasyon olan bölgenin evrimsel olarak korunup korunmadığını inceliyor. Buna göre, ilgili mutasyonun etkisinin ne olabileceğine dair tahmin yürütebiliyor.

Tüm bu ek yönlendirmelere rağmen, farklı laboratuvarlar aynı kişi için birbirinden tamamen farklı sonuçlar verebiliyor. ABD’de 9 farklı klinik laboratuvarda gerçekleştirilen bir çalışmada, farklı laboratuvarların, aynı kişiye ait raporlarında varyantların sadece %34’ü için hem fikir olduğu ortaya çıktı. 12 Öyle ki, sonuçların %22’sinden çıkan sonuçlar, kişinin alacağı tedavi yöntemini değiştirecek kadar farklıydı. Bu durum, genomik alanda teknolojinin hızla ilerlemesine rağmen, verileri anlamlandırmada aynı hızı yakalayamadığımızı gösteriyor.

Dizilemenin Geleceği

Dizileme alanında yeni teknolojiler beraberinde, onlarca sorunu da getiriyor. Bu sorunlar, DNA izolasyonundan çıkan verilerin analizine kadar çok geniş bir yelpazede yer alıyor. Tek hücre dizileme, uzun okumalı dizileme gibi yeni teknolojiler de bu sorunlara yenileri de ekliyor. Neyse ki, Dünya üzerindeki binlerce araştırmacı ve yüzlerce firma bu sorunları çözmek için her yıl daha fazla çalışıyor. Tüm bu uğraş, tüm genom dizileme ve yorumlamanın sıradan bir kan testi kadar kolaylaşacağı günlere ulaşmak için.

Referanslar
1.
Sequencing Power for Every Scale. illumina Investor Presentation Available at: https://www.illumina.com/content/dam/illumina-marketing/documents/company/investor-relations/investor_presentations/illumina_investor_presentation.pdf. (Accessed: 18th July 2017)
2.
1000$ Genome. illumina Available at: https://www.illumina.com/company/news-center/feature-articles/the-1000-dollar-genome.html. (Accessed: 27th July 2017)
3.
Baker, M. Biorepositories: Building better biobanks. Nature 486, 141–146 (2012). [Source]
4.
Workflow Questions Answered: Challenges with FFPE Samples in your NGS Workflows. Select Science Available at: https://www.selectscience.net/selectscience-interviews/workflow-questions-answered-challenges-with-ffpe-samples-in-your-ngs-workflows. (Accessed: 19th July 2017)
5.
Hedegaard, J. et al. Next-Generation Sequencing of RNA and DNA Isolated from Paired Fresh-Frozen and Formalin-Fixed Paraffin-Embedded Samples of Human Cancer and Normal Tissue. PLoS ONE 9, e98187 (2014). [Source]
6.
Gunnarsson, G. H., Gudmundsson, B., Thormar, H. G., Alfredsson, A. & Jonsson, J. J. Two-dimensional strandness-dependent electrophoresis: A method to characterize single-stranded DNA, double-stranded DNA, and RNA–DNA hybrids in complex samples. Analytical Biochemistry 350, 120–127 (2006). [Source]
7.
Shore, S. et al. Small RNA Library Preparation Method for Next-Generation Sequencing Using Chemical Modifications to Prevent Adapter Dimer Formation. PLOS ONE 11, e0167009 (2016). [Source]
8.
EmTech: Illumina Says 228,000 Human Genomes Will Be Sequenced This Year. MIT Technology Review (2014). Available at: https://www.technologyreview.com/s/531091/emtech-illumina-says-228000-human-genomes-will-be-sequenced-this-year/. (Accessed: 22nd July 2017)
9.
Laver, T. et al. Assessing the performance of the Oxford Nanopore Technologies MinION. Biomolecular Detection and Quantification 3, 1–8 (2015). [Source]
10.
Genomics. Broad Institute Available at: https://www.broadinstitute.org/genomics. (Accessed: 25th July 2017)
11.
Levy, S. et al. The Diploid Genome Sequence of an Individual Human. PLoS Biology 5, e254 (2007). [Source]
12.
Amendola, L. M. et al. Performance of ACMG-AMP Variant-Interpretation Guidelines among Nine Laboratories in the Clinical Sequencing Exploratory Research Consortium. The American Journal of Human Genetics 98, 1067–1076 (2016). [Source]

Moleküler Biyolog ve Genetikçi. İstanbul Teknik Üniversitesi’nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor. R programlama dili üzerine R Konsol adlı blogda yazıyor.

2 comments On Yeni Nesil Dizileme – Yeni Nesil Zorluklar

Leave a reply:

Your email address will not be published.

Site Footer