مقدمهای بر فراخوانی واریانت: کنترل کیفیت، همترازی دادهها با ژنوم مرجع، حذف خوانشهای تکراری و تفسیر یا حاشیه نویسی واریانت پایپلاینهای فراخوانی واریانت ، واریانتهای تک نوکلئوتیدی موجود در کل ژنوم و دادههای اگزوم را شناسایی میکند. واریانتها در مقایسه مجموعه دادههای مربوط به یک فرد با توالی مرجع تعیین میشوند. تجزیه و تحلیل واریانتها برای کل اگزوم، پانلهای هدفمند و توالییابی کل ژنوم، ضروری است. پایپلاینهای فراخوانی واریانتها از روی دادهها، از یک سری مراحل متوالی به هم پیوسته تشکیل شده است:
کنترل کیفیت:
اولین مرحله پایپلاینهای فراخوانی واریانتها شامل ارزیابی کیفیت دادههای خام توالییابی است. پلتفرمهای توالییابی مانند Illumina خوانشهای خام را در قالب FASTQ ارائه میکنند که حاوی توالی نوکلئوتیدی و امتیازهای کیفیت مرتبط است. توالیهای آداپتور، که به خوانشهای خام متصل باقی میمانند، باید قبل از تجزیه و تحلیلهای پاییندستی حذف شوند.
انتخاب ابزار بستگی به نوع داده، مقدار محتوای آداپتور و سایر مصنوعات توالی دارد. سرعت و دقت ابزار نیز از عوامل مهم هستند. مرحلهی نهایی حذف خوانشهای بسیار کوتاه با کمتر از 20 باز است. این به این دلیل است که خوانشهای کوتاه به احتمال زیاد به طور مبهم به چندین مکان در ژنوم مرجع نگاشت میشوند و باعث سوگیری در فراخوانی SNP میشوند.
همترازی(Alignment):
خوانشهای فیلتر شده با استفاده از الگوریتمهای burrows wheeler aligner (BWA-mem) یا BWA-aln به ژنوم مرجع نگاشت میشوند. بسته به اندازه خوانشهای خام (خوانشهای یک طرفه و دوطرفه) میتوان از تراز کنندههای اضافی مانند Bowtie-2 نیز استفاده کرد.
همه تراز کنندهها خوانشهای خام را با فرمت FASTQ به عنوان ورودی دریافت میکنند و فایلهای sequence alignment mapping format (SAM) را ارائه میکنند. در مراحل بعدی، فایل SAM به (BAM) binary alignment file format تبدیل میشود تا حجم ذخیره سازی فایل همترازی کاهشیابد. جزئیات فایلهای مورد استفاده در هم ترازی و نتایج مورد انتظار در زیر آورده شده است:
Deduplication یا حذف خوانشهای تکراری:
خوانشهای چند نقشهای، تکراری و تکمیلی باید از تجزیه و تحلیل پایین دستی حذف شوند تا احتمال نتایج مثبت کاذب کاهش یابد. برای این منظور از ابزار Picard استفاده میکنیم. در مراحل بعدی تجزیه و تحلیل تعیین واریانت، فقط خوانشهای تراز شده منحصر به فرد استفاده میشوند.
مرحله ی بازهمترازی در حوالی indel در فراخوانی واریانتها
طی مرحله همترازی به خصوص در حوالی نواحی Indel ممکن است خطاهایی ایجاد شود. در برخی موارد، خوانشهایی که شروع یا پایان یک Indel را پوشش میدهند به اشتباه نگاشت میشوند، که منجر به تغییر بین مرجع وخوانشها( در نزدیکی مناطقی که به درستی همتراز نشدند) میشود. مرحله ی بازهمترازی این خطاها را تصحیح میکند.
ابزار تجزیه و تحلیل ژنوم (GATK) یک ابزاربازهمترازی(Realignment) مهم است. GATK واریانتهای خام را برای هر نمونه خوانش، فراخوانی میکند، واریانتها را در برابر واریانتهای شناخته شده با اعمال یک روش کالیبراسیون تجزیه و تحلیل میکند و نرخ کشف نادرست را برای هر واریانت محاسبه میکند. الگوریتم GATK HaplotypeCalle , نام دارد.همه واریانتهای ممکن را در خوانشهای تراز و پردازش شده شناسایی میکند.
GATK واریانتها را درفرمت VCF: variant calling file)) خروجی میدهد. جزئیات ابزارها و فرمت فایل خروجی آنها در زیر آورده شده است.
حاشیه نویسی واریانت:
هدف مرحله حاشیه نویسی واریانت، شناسایی عملکرد و تأثیر همه SNPهای شناسایی شده با استفاده از ابزارهای حاشیه نویسی SNP است. در مرحله حاشیه نویسی، اطلاعات بیولوژیکی استخراج میشود. اطلاعات عملکردی بر اساس اطلاعات موجود مانند توالی اسید نوکلئیک و پروتئین به واریانتDNA ای اختصاص داده میشود.
SnPEff یک ابزار حاشیه نویسی واریانت دردسترس است. با استفاده از یک الگوریتم محاسباتی، اثرات واریانتها روی ژنها را پیش بینی میکند. تا واریانتهای مضر را تشخیص دهد.علاوه بر این، واریانتها را بر اساس مکان ژنومی آنها حاشیهنویسی میکند و اثرات کدینگ آنها را پیشبینی میکند. Basepair از دو نوع پایگاه داده استفاده میکند: dbSNP، جامع ترین پایگاه داده برای تغییرات نوکلئوتید، و ClinVar، که شامل مجموعهای از گزارشها از رابطه بین واریانتهای انسانی و فنوتیپها است. دادهها در ClinVar از آزمایشهای بالینی، مطالعات تحقیقاتی و سایر متون جمع آوری شده است.
اهمیت شناسایی واریانتها و حاشیه نویسی:
شناسایی واریانتها کاتالوگ دقیقی از تغییرات در ژنوم فرد ایجاد میکند و مسئول شناسایی دلایل زمینهای برای بیماریهای مختلف و تغییرات خاص DNA است. واریانتها نقش مهمی را در مطالعات همراهی گسترده ژنومی ایفا میکنند و به عنوان مارکهای مهم عمل میکنند. به طور دقیقتر، واریانتها به کشف ژنهای مرتبط با بیماری کمک میکنند.
شناسایی آن دسته از واریانتهای ژنومی که بازیگران کلیدی بیماری هستند به دستیابی به اهداف پرباری برای پزشکی کمک میکند. بیشتر جهشها با اختلالات مندلی مرتبط هستند. به علاوه آرایههای مبتنی بر SNP مانند آرایهaxiom به بهبود عملکرد محصول کمک میکند. حاشیهنویسی SNP یک روش مهم برای پیشبینی محاسباتی اثرات مضر SNPها و نقش آنها در بیماریهای موجودات زنده است. حاشیهنویسی SNP همچنین SNPهای موجود در نواحی اگزونیک، تنظیم کننده رونویسی و بسیاری از مناطق ژنومی عملکردی دیگر را شناسایی میکند.
مصورسازی SNP:
مرورگرهای ژنوم به محققان این امکان را دادهاند تا خوانشهای تراز شده خود را تجسم کنند. که یک گام مهم در بررسی دادهها است. مرورگرهای ژنومی مانند مرورگرهای ارائه شده توسط Basepair فرصتی برای مشاهده واریانتهای موجود در خوانشهای تراز شده را فراهم میکنند.
اعتبار سنجی واریانت:
واریانتهای تک نوکلئوتیدی را میتوان با استفاده از توالییابی Sanger یا ژنوتیپاینگ ریز آرایه از مطالعات همراهی گسترده ژنوم (GWAS) تایید کرد. توالییابی سنگر یک فناوری استاندارد طلایی برای تایید و اعتبار سنجی SNPها در نظر گرفته میشود. فراخوانیهای مختلف را میتوان با استفاده از سنجشهای مختلف Affymetrix genome-wide SNPs، ژنوتیپ کرد.
جدای از آن، یک الگوریتم محاسباتی به نام MutationValidator با ایجاد یک ماتریس اعتبارسنجی، اعتبارسنجی متقاطع واریانتها را انجام میدهد و جهشها را با استفاده از فناوریهای NGS بهعنوان سوماتیک، رده زایا یا مصنوعی طبقهبندی میکند.
مترجم: مریم راحمی
مطالعه صدها مطلب علمی در حوزه بیولوژی
آرشیو جدیدترین خبرهای روز دنیای بیولوژی