فراخوانی واریانت

فراخوانی واریانت

مقدمه‌ای بر فراخوانی واریانت: کنترل کیفیت، هم‌ترازی داده‌ها با ژنوم مرجع، حذف خوانش‌های تکراری و  تفسیر یا حاشیه نویسی واریانت پایپلاین‌های فراخوانی واریانت ، واریانت‌های تک نوکلئوتیدی موجود در کل ژنوم و داده‌های اگزوم را شناسایی می‌کند. واریانت‌ها در مقایسه مجموعه داده‌های مربوط به یک فرد با توالی مرجع تعیین می‎شوند. تجزیه و تحلیل واریانت‌ها برای کل اگزوم، پانل‌های هدفمند و توالی‌یابی کل ژنوم، ضروری است. پایپلاین‌های فراخوانی واریانت‌ها از روی داده‌ها، از یک سری مراحل متوالی به هم پیوسته تشکیل شده است:

کنترل کیفیت:

اولین مرحله پایپلاین‌های فراخوانی واریانت‌ها شامل ارزیابی کیفیت داده‌های خام توالی‌یابی است. پلتفرم‌های توالی‌یابی مانند Illumina خوانش‌های خام را در قالب FASTQ ارائه می‌کنند که حاوی توالی نوکلئوتیدی و امتیا‌‌زهای کیفیت مرتبط است. توالی‌های آداپتور، که به خوانش‌های خام متصل باقی می‌مانند، باید قبل از تجزیه و تحلیل‌های پایین‌دستی حذف شوند.

انتخاب ابزار بستگی به نوع داده، مقدار محتوای آداپتور و سایر مصنوعات توالی دارد. سرعت و دقت ابزار نیز از عوامل مهم هستند. مرحله‌ی نهایی حذف خوانش‌های بسیار کوتاه با کمتر از 20 باز است. این به این دلیل است که خوانش‌های کوتاه به احتمال زیاد به طور مبهم به چندین مکان در ژنوم مرجع نگاشت می‌شوند و باعث سوگیری در فراخوانی SNP می‌شوند.

هم‌ترازی(Alignment):

خوانش‌های فیلتر شده با استفاده از الگوریتم‌های burrows wheeler aligner (BWA-mem) یا BWA-aln به ژنوم مرجع نگاشت می‌شوند. بسته به اندازه خوانش‌های خام (خوانش‌های یک طرفه و دوطرفه) می‌توان از تراز کننده‌های اضافی مانند Bowtie-2 نیز استفاده کرد.

همه تراز کننده‌ها خوانش‌های خام را با فرمت FASTQ به عنوان ورودی دریافت می‌کنند و فایل‌های sequence alignment mapping format (SAM) را ارائه می‌کنند. در مراحل بعدی، فایل SAM به (BAM) binary alignment file format تبدیل می‌شود تا حجم ذخیره سازی فایل هم‌ترازی کاهش‌یابد. جزئیات فایل‌های مورد استفاده در هم‌ ترازی و نتایج مورد انتظار در زیر آورده شده است:

 

Deduplication یا حذف خوانش‌های تکراری:

خوانش‌های چند نقشه‌ای، تکراری و تکمیلی باید از تجزیه و تحلیل پایین دستی حذف شوند تا احتمال نتایج مثبت کاذب کاهش یابد. برای این منظور از ابزار Picard استفاده می‌کنیم. در مراحل بعدی تجزیه و تحلیل تعیین واریانت، فقط خوانش‌های تراز شده منحصر به فرد استفاده می‌شوند.

مرحله ی بازهمترازی در حوالی indel در فراخوانی واریانت‌ها

طی مرحله هم‌ترازی به خصوص در حوالی نواحی Indel ممکن است خطا‌هایی‌ ایجاد شود. در برخی موارد،  خوانش‌هایی که شروع یا پایان یک Indel را پوشش می‌دهند به اشتباه نگاشت می‌شوند، که منجر به تغییر بین مرجع وخوانش‌ها( در نزدیکی مناطقی که به درستی هم‌تراز نشدند) می‌شود. مرحله ی بازهم‌ترازی این خطا‌ها را تصحیح می‌کند.

ابزار تجزیه و تحلیل ژنوم (GATK) یک ابزاربازهم‌ترازی(Realignment) مهم است. GATK واریانت‌های خام را برای هر نمونه خوانش، فراخوانی می‌کند، واریانت‌ها را در برابر واریانت‌های شناخته شده با اعمال یک روش کالیبراسیون تجزیه و تحلیل می‌کند و نرخ کشف نادرست را برای هر واریانت محاسبه می‌کند. الگوریتم GATK HaplotypeCalle , نام دارد.همه واریانت‌های ممکن را در خوانش‌های تراز و پردازش شده شناسایی می‌کند.

GATK واریانت‌ها را درفرمت VCF: variant calling file)) خروجی می‌دهد. جزئیات ابزارها و فرمت فایل خروجی آن‌ها در زیر آورده شده است.

حاشیه نویسی واریانت:

هدف مرحله حاشیه نویسی واریانت،  شناسایی عملکرد و تأثیر همه SNP‌های شناسایی شده با استفاده از ابزارهای حاشیه نویسی SNP است. در مرحله حاشیه نویسی، اطلاعات بیولوژیکی استخراج می‌شود. اطلاعات عملکردی بر اساس اطلاعات موجود مانند توالی اسید نوکلئیک و پروتئین به واریانتDNA ای اختصاص داده می‌شود.

SnPEff یک ابزار حاشیه نویسی واریانت دردسترس است. با استفاده از یک الگوریتم محاسباتی، اثرات واریانت‌ها روی ژن‌ها را پیش بینی می‌کند. تا واریانت‌های مضر را تشخیص دهد.علاوه بر این، واریانت‌ها را بر اساس مکان ژنومی آ‌ن‌ها حاشیه‌نویسی می‌کند و اثرات کدینگ آن‌ها را پیش‌بینی می‌کند. Basepair از دو نوع پایگاه داده استفاده می‌کند: dbSNP، جامع ترین پایگاه داده برای تغییرات نوکلئوتید، و ClinVar، که شامل مجموعه‌ای از گزارش‌ها از رابطه بین واریانت‌های انسانی و فنوتیپ‌ها است. داده‌ها در ClinVar از آزمایش‌های بالینی، مطالعات تحقیقاتی و سایر متون جمع آوری شده است.

اهمیت شناسایی واریانت‌ها و حاشیه نویسی:

شناسایی واریانت‌ها کاتالوگ دقیقی از تغییرات در ژنوم فرد ایجاد می‌کند و مسئول شناسایی دلایل زمینه‌ای برای بیماری‌های مختلف و تغییرات خاص DNA است. واریانت‌ها نقش مهمی را در مطالعات همراهی  گسترده ژنومی ایفا می‌کنند و به عنوان مارک‌های مهم عمل می‌کنند. به طور دقیق‌تر، واریانت‌ها به کشف ژن‌های مرتبط با بیماری کمک می‌کنند.

شناسایی آن دسته از واریانت‌های ژنومی که بازیگران کلیدی بیماری هستند به دستیابی به اهداف پرباری برای پزشکی کمک می‌کند. بیشتر جهش‌ها با اختلالات مندلی مرتبط هستند. به علاوه  آرایه‌های مبتنی بر SNP مانند آرایهaxiom به بهبود عملکرد محصول کمک می‌کند. حاشیه‌نویسی SNP یک روش مهم برای پیش‌بینی محاسباتی اثرات مضر SNP‌ها و نقش آن‌ها در بیماری‌های موجودات زنده است. حاشیه‌نویسی SNP همچنین SNP‌های موجود در نواحی اگزونیک، تنظیم کننده رونویسی و بسیاری از مناطق ژنومی عملکردی دیگر را شناسایی می‌کند.

مصورسازی SNP:

مرورگر‌های ژنوم به محققان این امکان را داده‌اند تا خوانش‌های تراز شده خود را تجسم کنند. که یک گام مهم در بررسی داده‌ها است. مرورگر‌های ژنومی مانند مرورگرهای ارائه شده توسط Basepair فرصتی برای مشاهده واریانت‌های موجود در خوانش‌های تراز شده را فراهم می‌کنند.

اعتبار سنجی واریانت:

واریانت‌های تک نوکلئوتیدی را می‌توان با استفاده از توالی‌یابی Sanger یا ژنوتیپاینگ ریز آرایه از مطالعات همراهی گسترده ژنوم (GWAS) تایید کرد. توالی‌یابی سنگر یک فناوری استاندارد طلایی برای تایید و اعتبار سنجی SNP‌ها در نظر گرفته می‌شود. فراخوانی‌های مختلف را می‌توان با استفاده از سنجش‌های مختلف Affymetrix genome-wide SNPs، ژنوتیپ کرد.

جدای از آن، یک الگوریتم محاسباتی به نام MutationValidator با ایجاد یک ماتریس اعتبارسنجی، اعتبارسنجی متقاطع واریانت‌ها را انجام می‌دهد و جهش‌ها را با استفاده از فناوری‌های NGS به‌عنوان سوماتیک، رده زایا یا مصنوعی طبقه‌بندی می‌کند.

منبع

مترجم: مریم راحمی

مطالعه صدها مطلب علمی در حوزه بیولوژی

آرشیو جدیدترین خبرهای روز دنیای بیولوژی

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

5 / 5. تعداد رای دهندگان: 2

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید