FASTA: تعریف، برنامه‌ها، طرز کار، مراحل و کاربردها

FASTA

مقدمه‌ای بر ابزار FASTA

پایگاه داده جستجوی شباهت یک تکنیک ضروری در بیوانفورماتیک (Bioinformatic) است زیرا به ما امکان می‌دهد توالی‌های تازه تعیین شده را با مقایسه آن‌ها با پایگاه‌های داده موجود توصیف کنیم.

FASTA یکی از اولین ابزارهای جستجوی شباهت در پایگاه داده پرکاربرد است. FASTA (یا FastA)، مخفف «Fast-All»، ابزاری برای هم‌ترازسازی توالی (Sequence alignment) است که توالی‌های نوکلئوتیدی یا پروتئینی را به عنوان ورودی می‌گیرد و آن را با پایگاه‌های داده موجود مقایسه می‌کند. اولین بار توسط David J. Lipman و William R. Pearson در سال 1985 توسعه یافت و از آن زمان تا کنون برای کاربردهای مختلف اصلاح و تعدیل شده است.

فرمت فایل مبتنی بر متن (Text-based file format) برای نمایش توالی‌های نوکلئوتیدی یا پروتئینی که از برنامه FASTA نشأت می‌گیرد، اکنون به یک استاندارد در بیوانفورماتیک تبدیل شده است. بسیاری از ابزارهای جستجوی توالی در پایگاه داده دیگر نیز از فرمت فایل FASTA استفاده می‌کنند.

فرمت FASTA
فرمت FASTA

برنامه‌های FASTA

FASTA در ابتدا برای مقایسه توالی پروتئین توسعه داده شد. برنامه اصلی به عنوان FASTP نامیده می‌شد. این برنامه به سرعت به ابزاری محبوب برای هم‌ترازسازی توالی و جستجو در پایگاه داده تبدیل شد. FASTA به طور مداوم به روز شده و بهبود یافته است. در حال حاضر برنامه‌های مختلف FASTA در دسترس هستند که هر کدام برای انواع متفاوتی از جستجوهای دنباله استفاده می‌شوند:

  • FASTA با استفاده از الگوریتم FASTA، یک توالی مورد بررسی DNA را با یک پایگاه داده از توالی‌های DNA یا یک توالی مورد بررسی پروتئین را با پایگاه داده‌ای از توالی‌های پروتئینی مقایسه می‌کند.
  • SSEARCH با استفاده از الگوریتم Smith-Waterman، مقایسه پروتئین-پروتئین یا DNA-DNA را انجام می‌دهد.
  • GGSEARCH/GLSEARCH با استفاده از یک الگوریتم هم‌ترازسازی سراسری (GGSEARCH) یا ترکیبی از الگوریتم‌های هم‌ترازسازی سراسری و محلی (GLSEARCH) به مقایسه توالی‌های پروتئینی و نوکلئوتیدی می‌پردازد.
  • FASTX/FASTY یک توالی DNA و یک پایگاه داده از توالی‌های پروتئین را با ترجمه توالی DNA به سه فریم و اجازه دادن به شکاف‌ها و جهش‌های تغییر چارچوب (frameshift)، مقایسه می‌کند.
  • TFASTX/TFASTY یک توالی پروتئین و یک پایگاه داده از توالی‌های DNA را مقایسه می‌کند. توالی DNA در شش فریم ترجمه می‌شود: سه فریم در جهت جلو و سه فریم در جهت معکوس.
  • FASTF/TFASTF توالی‌های پپتیدی (Peptide) مخلوط را با پایگاه داده‌های پروتئین (FASTF) یا DNA ترجمه شده (TFASTF) مقایسه می‌کند.
  • FASTS/TFASTS مجموعه‌ای از قطعات پپتیدی کوتاه را با پایگاه داده‌های پروتئین (FASTS) یا DNA ترجمه شده (TFASTS) مقایسه می‌کند.

FASTA چگونه کار می‌کند

FASTA با مقایسه یک دنباله مورد بررسی با پایگاه داده‌ای از توالی‌ها برای شناسایی مطابقت‌های مشابه کار می‌کند. این برنامه از یک الگوریتم ابتکاری (Heuristic algorithm) برای جستجوی سریع پایگاه داده و شناسایی مهم‌ترین تطابق‌های مشابه استفاده می‌کند.

مکانیسم کار FASTA در مراحل زیر شرح داده شده است:

مرحله 1: شناسایی بخش‌ها

اولین مرحله شناسایی بخش‌ها با شباهت بالا با ایجاد یک لوکاپ تیبل (Lookup table) برای دنباله مورد بررسی است. به این مرحله مرحله هشینگ (hashing) نیز می‌گویند. برای ایجاد لوکاپ تیبل، ابتدا دنباله مورد بررسی به متن‌های کوچک‌تر معروف به k-tuple (ktup) تقسیم می‌شود.

هنگامی که مقدار ktup افزایش می‌یابد، تعداد بازدیدهای متن پس‌زمینه کاهش می‌یابد. با کاهش تعداد بازدیدهای این متن‌های پس‌زمینه، الگوریتم می‌تواند روی بازدیدهای مرتبط‌تر تمرکز کند و سرعت کلی جستجو را افزایش دهد. k-tuple معمولا برای پروتئین‌ها برابر 2 و برای توالی‌های نوکلئوتیدی برابر 6 است.

هنگامی که لوکاپ تیبل ایجاد شد، برای شناسایی تطابق بین k-tuple‌ها در دنباله مورد بررسی و توالی‌ها در پایگاه داده استفاده می‌شود. بخش‌های مشابه به صورت قطری در یک ماتریس دو بعدی نشان داده می‌شوند. ده بخش با بیشترین تراکم تطابق متن‌ها، مناطق با شباهت بالا هستند و بهترین ده قطر ذخیره می‌شوند.

الگوریتم FASTA

 

مرحله 2: امتیازدهی مجدد

در مرحله دوم ده قطر برتر با استفاده از ماتریس‌های امتیازدهی مناسب، مجدداً امتیازدهی می‌شوند. برای پروتئین، ماتریس BLOSUM50 یا PAM استفاده می‌شود. برای توالی‌های DNA از ماتریس همانی (Identity matrix) استفاده می‌شود. یک زیربخش با بالاترین امتیاز برای هر یک از بخش‌های قطری اسکن شده، شناسایی می‌شود. به این زیربخش‌ها با امتیاز بالا در قطرها، بخش‌های اولیه می‌گویند.

مرحله 3: آستانه (Threshold) اتصال

در مرحله بعد، یک برش امتیاز یا آستانه اتصال اعمال می‌شود که بخش‌هایی را که بعید است قسمتی از هم‌ترازسازی نهایی باشند، حذف می‌کند. توالی‌های کتابخانه بر اساس امتیازات اولیه آن‌ها رتبه‌بندی می‌شوند.

بخش‌هایی که امتیازات اولیه آن‌ها بالاتر از ترش‌هلد از پیش تعیین شده است، انتخاب شده و بررسی می‌شوند تا ببینیم آیا می‌توان آن‌ها را به یکدیگر متصل کرد یا خیر. این مرحله در حین اعمال جریمه‌های شکاف، شکاف‌هایی را بین قطرها معرفی می‌کند. امتیاز هم‌ترازی شکاف‌دار با کم کردن یک جریمه برای هر شکاف محاسبه می‌شود که برای رتبه‌بندی توالی‌ها در پایگاه داده بر اساس شباهت استفاده می‌شود.

مرحله 4: هم‌ترازی نهایی

در نهایت، هم‌ترازی شکاف‌دار برای تولید هم‌ترازسازی اصلاح می‌شود. این کار با استفاده از الگوریتم Smith-Waterman نواری انجام می‌شود. این الگوریتم یک الگوریتم برنامه‌نویسی پویا بوده که امتیاز بهینه (opt) را برای هم‌ترازسازی محاسبه می‌کند. این امتیاز برای محاسبات آماری استفاده می‌شود.

معنا‌داری آماری و FASTA

FASTA همچنین تخمینی از معنا‌داری آماری (Statistical Significance) هم‌ترازی یافت شده ارائه می‌دهد. این معنی‌داری با استفاده از امید ریاضی (E-value) که احتمال به دست آوردن امتیاز هم‌ترازی توالی به طور تصادفی را اندازه‌گیری می‌کند، ارزیابی می‌شود. هر چه امید ریاضی کوچکتر باشد، هم ترازی معنادارتر است.

E-value تنها پارامتر آماری نیست. FASTA همچنین از معیارهای آماری دیگری مانند امتیاز بیت (Bit score) و امتیاز شباهت (Similarity score) بر اساس ماتریس امتیازدهی و جریمه‌های شکاف برای ارزیابی معنا‌داری هم‌ترازی‌های توالی استفاده می‌کند.

خروجی FASTA همچنین شامل یک پارامتر آماری اضافی به نام Z-score است که تعداد انحرافات استاندارد از میانگین امتیاز جستجو در پایگاه داده را نشان می‌دهد. یک مقدار Z بالاتر نشان دهنده تطابق معنادارتر است.

کاربردهای FASTA

FASTA طیف وسیعی از کاربردها دارد که برخی از آن‌ها عبارتند از:

  • FASTA می‌تواند در هم‌ترازسازی توالی برای شناسایی بخش‌های مشابه استفاده شود. FASTA در شناسایی بخش‌های محفاظت شده در توالی‌های DNA یا پروتئین مفید است، که می‌تواند به شناسایی حوزه‌ها یا موتیف‌های (Motif) کارا کمک کند. شناسایی این حوزه‌ها یا موتیف‌های کارا می‌تواند بینش‌هایی در مورد کارکرد بیولوژیکی دنباله ارائه دهد.
  • از FASTA می‌توان برای جستجو در پایگاه داده‌های بزرگ از توالی‌ها برای یافتن مطابقت با یک دنباله مورد بررسی استفاده کرد. FASTA به شناسایی توالی‌های همولوگ (Homologous) کمک می‌کند که می‌تواند به پیش‌بینی کارکرد یک دنباله تازه شناسایی شده، کمک کند.
  • FASTA می‌تواند درختان فیلوژنتیک (Phylogenetic tree) را با تراز کردن توالی از گونه‌های مختلف و شناسایی روابط تکاملی بین آن‌ها، بسازد.

همچنین بخوانید:

 

منبع

مترجم: صادق حسینی‌کیا

از این مطلب چقدر راضی بودید؟

روی ستاره کلیک کنید تا نظرتون ثبت بشه

3 / 5. تعداد رای دهندگان: 2

تا حالا امتیازی برای این مطلب ثبت نشده؛ با ثبت نظرتون مارو خوشحال می‌کنید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *