Yeni Nesil Dizilemede Veri Kalite Kontrolü Nasıl Yapılır?

Yeni nesil dizileme platformları artık çoğu laboratuvarda yerini almaya başlandı. Sistemlerin yaygınlığının fazlalaşması, kaçınılmaz olarak beraberinde üretilen veri miktarını da arttırıyor. Ne yazık ki, üretilen verilerin niteliğinde aynı kaliteyi tutturmak mümkün değil. Veriler üzerinde önceden yapılacak kalite kontrol analizleri, düşük kaliteli bir veriyi önceden tespit ederek hem gereksiz biyoinformatik süreçlerinin önüne geçilmesini; hem de kütüphane hazırlığında yapılmış olan olası hataları öngörülmesine olanak sağlıyor.

Biyoinformatik analiz yazı dizisine veri kalite kontrolü ile başlıyoruz. Bu yazıda, yeni nesil dizileme ham verilerinin kalite kontrolünün kolaylıkla nasıl yapılacağına yer vereceğiz. Bu amaçla hazırlanmış çok sayıda program arasından belki de en popüleri FastQC programına değineceğiz.

Kurulum:

Programın Mac, Windows ve Linux için versiyonları bulunuyor. Sizin için uygun olanı, geliştirici firma olan Babraham Bioinformatics’in ilgili web sayfasından indirebilirsiniz. İndirdikten sonra temel kurulum basamaklarını takip ederek bilgisayarınıza yükleyebilirsiniz.

Ayrıca, üzerinde deneme yapacağımız bir ham veriye ihtiyacınız olacak. Örnek olarak hazırladığım sample_1.fastq dosyasını bu bağlantıdan (90 MB) indirebilirsiniz.

Uygulama:

Programı açtıktan sonra menüsünden “File > Open …” seçeneği örnek dosyayı (sample_1.fastq) açıyoruz. Program, verinin boyutuna bağlı olarak 1-60 saniye arasında ilgili istatistikleri çıkaracak.

İstatistikler tamamlandığında, sol menüde bir çok parametrenin yer aldığını göreceksiniz. Bir test parametresine göre uygun not verildi ise simgesi; kısmi olarak anormal bir durum görüldü ise ! simgesi; tamamen olağandışı bir durum var ise X ifadesi görülecektir. Şimdi bu parametrelerin hepsine tek tek göz atalım.

Basic Statistics:

  • Filename: Analiz edilen dosyanın adı
  • File type: Dosyanın doğrudan nükleotit kodları mı, yoksa colorspace verilerini mi içerdiğini gösterir. Colorspace, ABI SoLID teknolojisine sahip cihazlardan elde edilen ham verilerdir. Aslına bakarsanız bu parametrede artık colorspace görmeniz pek mümkün değil. Çünkü ABI artık SoLID teknolojisi yerine Ion Torrent platformlarına yönelmiş durumda.
  • Encoding: Ham veriler içinde, hem dizi verileri hem de bu dizilere ait kalite skorları yer alır. Farklı dizileme platformları bu kalite skorlarını farklı harflerle ifade eder. İlgili okumanın hangi cihaz ve kodlama versiyonuna göre kalite skorlarının verildiği burada yer alır.
  • Total sequences: İlgili dosyadaki tüm okumaların sayısını gösterir.
  • Sequences flagged as poor quality: Bazı dizileme platformları, dizileme sonrasında otomatik olarak bazı okumaları “düşük kalite” olarak etiketler. (Örneğin illumina CASAVA). Baştan düşük kaliteli olarak etiketlenen bu okumalar, kalite kontrol analizine katılmaz. Bu parametrede, bu sebeple analize katılmayan okumaların sayısı yer alır.
  • Sequence length: Okumalardaki en kısa ve en uzun verinin uzunluğunu verir. Eğer tüm okumalar eşit uzunlukta ise tek bir değeri gösterir.
  • %GC: Okumalardaki G ve C bazlarının oranını ifade eder. Bu oran, kullanılan yöntemden ziyade, incelenen türe veya dizilenen bölgeye göre değişiklik gösterir. Yüksek GC oranı (>%70) veya düşük GC oranı (<%10) içeren bölgelerde okuma hatası görülme ihtimali artar.
Per Base Sequence Quality:

Programın belki de en bilgilendirici parametrelerinden biri budur. Temel olarak okumalar içinde, her bir pozisyonda okunan bazların ne kadar kaliteli okunduğunu raporlar.

Solda: Yüksek kaliteli ve ideal bir okumalar. Sağda: Okuma kalitesi sonlara doğru hayli düşmüş, güvenilirliği düşük okumalar.

Grafiklerdeki x ekseni, okumadaki pozisyonları belirtir. Eksen 1 ile (yani ilk okunan baz ile) başlar v okuma uzunluğu boyunca uzanır. Y ekseni ise kalite değerini Phred Skoru üzerinden gösterir. Daha yüksek kalite skoru, daha güvenilir okumaların alındığını belirtir. Grafiğin arka planı ise 3 renge bölünmüştür: Yeşil (Çok iyi), Turuncu (Kabul edilebilir), Kırmızı (düşük kalite). Hemen hemen tüm dizileme platformlarında, kalite değerleri okuma sonlarına göre kıyasla düşüş gösterir.  Çoğu dizileme çalışmasında, kalite değerlerinin turuncu alana kadar düşmesi normal sayılabilir.

Çubuk grafiklerde kırmızı çizgi medyan değeri, sarı kutular %25 ve %75’lik quantile değer aralığını, ince çizgiler %10 ve %90’luk quantile değer aralığını ve mavi çizgi ortalama değerleri gösterir.

Elbette, kötü bir sonuç alınması (üst sağdaki grafik gibi) tüm verinin çöpe atılması anlamına gelmiyor. Elmanın çürük kısmını atar gibi, ham verilerin de düşük kaliteli kısımlarını kırpmayı sağlayacak uygulamalar (örn. Trimmomatic) mevcut. Eğer elinizde yeterli miktarda okuma varsa, kötü kısımları attıktan sonra bile verilerle analiz yapabilirsiniz.

Phred Skorlama

Bu noktada Phred skorundan da biraz bahsedersek yararlı olur. Bu skor değerleri, ilk defa İnsan Genom Projesi’nde kullanılmaya başlanmış, sonrasında da standart olarak günümüze gelmiştir. Bu skor, ilgili pozisyonun hatalı okunma ihtimali ile logaritmik olarak ilişkilidir. Yaklaşık olarak %99,9’luk doğruluk Phred ölçeğinde 30’a; %99,99’luk doğruluk ise 40 skoruna denk gelir.

Per tile sequence quality:

Bu grafik, veriler sadece illumina platformundan geliyorsa anlam ifade eder. Temelde, illumina cihazlarından elde edilen her bir okumada, o okumanın flowcell’deki hangi tile’da (başka yazının konusu artık) okunmuşsa onun adres verisi de kodlanır. Bu grafiğe bakarak, flowcell’in hangi bölgesindeki okumaların kalitesinin düşük olduğu görülebilir. Genellikle, cihazın flowcell’lerindeki olası hataların (baloncuk veya kalıntı bulunması) tespitini sağlar. Kalite ortalamasına göre düşük bölgeler kırmızı, ortalamaya yakın bölgeler ise mavi gözükür. İdeal grafik tamamen mavi görülür.

Per Sequence Quality Scores:


Grafik, ortalama okuma kalitelerine göre histogram (yoğunluk dağılımı) içerir. X ekseni Phred kalite skorlarını, Y ekseni ise, bu ortalama skora sahip kaç tane okuma olduğunu gösterir. Bazı durumlarda, biri düşük kalitede yer alacak şekilde 2 tepe görülebilir. Bu durum, dizileme platformunun teknik yetersizliklerinden (dedektörünün okuma bölgesinin sınırında yer alan bölgeleri yeterli kalitede okuyamaması) veya arızalardan kaynaklanabilir. İkinci tepecik, düşük bir oranda olduğu sürece kabul edilebilir.

Per Base Sequence Content:

Bu çizgi grafiği, nükleotitlerin her bir pozisyonda hangi oranlarda okunduğunu gösterir.
İdeal ve rastgele dizilerden oluşan doğal bir kütüphanede, nükleotitlerin görülme sıklığının pozisyona göre değişmemesi beklenir. Dolayısı ile tüm çizgiler birbirine paralel olacaktır.
Dizilenen bölge veya türe göre oranlar birbiri ile farklılık gösterebilir. Ancak aşırı yüksek veya düşük GC oranlarının görülmesi normal değildir ve dizileme sonuçlarında sorunlara yol açabilir.

Pozisyona göre değişiklik gösteren nükleotitler, kütüphane hazırlığı sırasında yapılan hataları gösterebilir.

Eğer pozisyona göre bazların oranları farklılık gösteriyor ise (bkz. üst görsel), bu durum genellikle kütüphaneyi kontamine eden başka DNA dizilerinin (overrepresented sequences) varlığını gösterir. Kütüphane hazırlığı sırasında yaşanacak sistematik problemlerin yanı sıra, benzeri grafikler, çeşitliliği çok düşük dizilerin (sadece 1 veya 2 PCR ürününün) dizilenmesi sonucunda da görülebilir.

Per Sequence GC Content:


Okumaların ortalama GC içeriğin nasıl dağıldığını gösteren histogram. İdeal bir kütüphanede, tepe noktası genel GC oranını verecek şekilde “normal dağılım” görülmesi gerekir. Grafikte, mavi ile gösterilen çizgi programın hesaplanan GC oranına göre oluşturduğu normal dağılımı; kırmızı ise ölçülen değerleri gösterir. Olağandışı şekilde normal dağılımdan farklılık gösteren grafikler, kontamine olmuş kütüphaneyi belirtebilir.

Per Base N Content:

Dizileme sırasında, herhangi bir sebepten dolayı okunamayan bazlar, fastq dosyasında “N” olarak kodlanır. Bu grafik, bu okunamayan bazların belli pozisyonlara özgü olup olmadığının kontrolünü sağlar. İdeal grafikte, tüm konumlarda sıfır değerini alan bir çizgi beklenir.

Eğer bir pozisyonda N değerleri fazla ise, bu durum dizileme platformunun o pozisyonu okurken yaşadığı teknik bir sorunu gösterir.

Sequence Length Distribution:

Okumaların uzunluğunu gösteren bir histogram. Yukarıdaki örnekte tüm okumaların uzunluğunun 36 baz olduğu görülüyor. Genellikle, dizileme sonucundaki ham verilerde, tüm okumalar aynı uzunluktadır. Ancak ileri analizlerde, okumaların uç kısımlarındaki düşük kaliteli parçalar kırpılabilir. Bu durumda, farklı bir uzunluk histogramı oluşacaktır.

Sequence Duplication Levels:

İdeal kütüphanelerde her bir diziden sadece bir tane bulunması, duplike bulundurmaması beklenir. Ancak bazen aynı diziyi içeren birden fazla okuma alınabilir. Bu “duplike” okumalar çeşitli yollarla (örn. allel frekansını değiştirerek) analiz sonuçlarını değiştirebilir.

Bu grafik, verilerdeki duplikasyon seviyesini belirtir. X ekseni aynı okumaya ait kaç kopya bulunduğunu, Y ekseni ise çoklu kopyaya sahip okumaların tüm verinin ne kadarını oluşturduğunu gösterir.  Düşük sayıda (2-10) kopyaya sahip dizilerin olması, bazı genomik bölgelerin çok yüksek okuma derinliği ile dizilendiğini gösterir. Öte yandan, yüksek sayıda (50-10000) kopyaya sahip okumalar ise kütüphane hazırlığı basamağında yapılan hataları (normalden fazla veya uzun PCR işlemi gerçekleştirilmesini) gösterir.

Overrepresented Sequences

Normal bir kütüphane, çok farklı çeşitte milyonlarca okumanın dizisini içerir. Genellikle, tek bir dizi, bu büyük kümenin çok çok küçük bir kısmını oluşturur. Tek bir dizinin, küme içinde çok fazla tespit edildiğini bulmak, bunun biyolojik açıdan önemli olduğunu veya kütüphanenin kontamine olduğunu veya beklediğiniz kadar farklılık içermediğini gösterebilir.

Bu parametre, toplamın % 0.1’den fazlasını oluşturan tüm dizileri listeler. Belleği korumak için yalnızca ilk 200.000 dizide görünen diziler analiz edilir. Bu nedenle, aşırı tespit edilen diziler dosyanın sonunda yer alıyorsa gözden kaçabilir. Bu işlem, dizinin tüm uzunluğu boyunca tam bir dizi eşlemesi gerektirdiğinden, 75bp’nin üstündeki herhangi bir okuma, bu analiz için 50bp’ye kesilir.

Program, aşırı tespit edilen her dizide ortak kontaminantları kendi veritabanındaki eşleşmeleri arar ve bulgularını “Possible Source” kolonunda rapor eder. Bir eşleşme bulmak, bunun kontaminasyonun kaynağı olduğu anlamına gelmez, ancak yönlendirici bilgi içerir.

Adapter Content

Bu grafikte, okumalar içinde adaptör dizilere ait kalıntılar raporlanır. Genellikle, bu adaptör diziler, dizileme platformundan çıkan ham verilerde yer almaz. Ancak, kütüphane uzunluğundan daha uzun okumalar yapıldığında, bu adaptörler görülebilir. Örneğin 30 bazlık small RNA kütüphanesine 100 bazlık Single-End okuma yapıldığında, sonlara doğru adaptör kalıntıları görülebilir. Benzer şekilde kütüphane içinde oluşabilecek adaptör dimerleri de bu grafikten anlaşılabilir.

Dizi içinde bu tür bir kalıntı var ise, bu adaptörlerin kırpılması gerekir. Bu amaçla çeşitli trimming uygulamaları gerçekleştirilmesi gerekir.

Kmer Content

Yukarıdaki “Overrepresented Sequences” başlığında, programın duplike okumaları tespit edebileceğinden bahsetmiştik. Ancak, bazı durumlarda duplike okumalar bu hata tespitini atlayabilir. Bu istisnai durumlar şunlardır:

  • Uzun okumalar içinde rastgele okuma hataları her zaman gözlenebilir. Bu ufak okuma hataları yüzünden, aslında aynı olan diziler farklı olarak gözlenebilir.
  • Eğer kısmi kısa bir dizi, okumanın çeşitli yerlerinde kopyalar halinde yer alıyorsa, duplike okuma olarak sayılmayabilir.

Bu sorunların önüne geçmek için tüm dizi benzerliği yerine k-mer’lerin görülme sıklığını incelemek tercih edilebilir.


Kmer nedir? Lafı gelmişken k-mer’in de ne olduğundan bahsedelim. L uzunluğundaki herhangi bir dizinin k uzunluğundaki tüm parçalarına k-mer adı verilir. Örneğin, ACGATGC şeklindeki y bazlık bir dizinin 4’bazlık k-mer’leri (4-mer) şunlar olacaktır. ACGA, CGAT, GATC, ATGC.


Bu grafikte, kısa dizi fragmanlarının (kmerlerin) belli başlı bölgelerde yoğun olarak gözüküp gözükmediği tespit edilebilir. Bu amaçla FastQC programı 7-mer’li dizi parçalarının hangi noktalarda ağırlıklı olarak görüldüğünü raporlar.

İdeal bir dizide, belirli bir kmer dizisinin (örn. ATCCTAA) okumalarda hep aynı pozisyonunda bulunmaması, tüm posizyonlara eşit dağılması beklenir. Elbette, incelenen genetik bölgelere göre bazı kmer’ler normalden daha fazla veya az görülebilir. Ancak yine de okumaların pozisyonunda bağımsız bir dağılım göstermelidir.


Biyoinformatik analiz yazı dizisine, ilk adımdan yani elde ettiğimiz dizilerin kalite kontrolünün nasıl yapıldığından başladık. Gelecek yazılarda, diğer basamaklara tekrar değineceğiz. Parametreler hakkında daha geniş açıklama isterseniz, yorum kısmından iletebilirsiniz.

Moleküler Biyolog ve Genetikçi. İstanbul Teknik Üniversitesi’nde doktora öğrencisi. 5 yıldır biyoinformatik ve yeni nesil dizileme üzerine çalışıyor. R programlama dili üzerine R Konsol adlı blogda yazıyor.

Leave a reply:

Your email address will not be published.

Site Footer