شیوع اخیر ویروس ابولا و کروناویروس سندرم تنفسی خاورمیانه (MERS-CoV) به وضوح قدرت تجزیه و تحلیل توالی در بیماری های ویروسی، شناسایی میزبان و سیاست های بهداشت عمومی را نشان می دهد. از آنجایی که این ویروسها در زمان اپیدمی، سر تیتر رسانهها را پر کردند، توالی ژنوم آنها در پایگاههای اطلاعاتی عمومی بینالمللی ثبت شده است. چنین تجزیه و تحلیل هایی اساسا درک ما از زیست شناسی ویروسی را تغییر می دهند و به طور قابل توجهی بر پاسخ های بهداشت عمومی به بیماری های ویروسی تأثیر می گذارند و همچنین تأکید بر زیرساخت های تحقیقات عمومی دارند که برای پشتیبانی از ذخیره سازی و تجزیه و تحلیلتوالی داده ها ضروری هستند.
این زیرساخت ها شامل پایگاههای داده اولیه می باشند که مجموعا شامل همکاری بینالمللی پایگاه های داده توالی نوکلئوتیدی (INSDC)، GenBank، مؤسسه بیوانفورماتیک اروپایی (EMBL-EBI) و پایگاه داده DNA ژاپن (DDBJ) و پایگاه های داده مرجع مانند ViralZone Resource در موسسه بیوانفورماتیک سوئیس (http://viralzone.expasy.org) و منبع ژنوم ویروسی در مرکز ملی اطلاعات بیوتکنولوژی (http:/ / www.ncbi.nlm.nih.gov/genome/viruses/) می باشد.
در حالی که پایگاههای داده اولیه آرشیوی از توالی داده ها هستند، پایگاههای داده مرجع مجموعه ای از داده ها را ارائه میدهند که تعدادی از فعالیتها را امکانپذیر میسازد، از جمله این فعالیت ها می توان به حاشیهنویسی یا annotation، مونتاژ توالی یا assembly و کشف ویروس، دینامیک ویروسی و تکامل و تشخیص پاتوژن اشاره نمود.
پروژه ژنوم ویروسی NCBI در پاسخ به نیاز روزافزون به یک منبع توالی مرجع عمومی مخصوص ویروس، تأسیس شد. این پروژه همه ژنومهای ویروسی کاملی را که در پایگاههای اطلاعاتی INSDC ذخیره شدهاند فهرستبندی میکند و به اصطلاح رکوردهای RefSeq را برای هر گونه ویروسی ایجاد میکند.
هر RefSeq از یک رکورد توالی INSDC مشتق شده است، اما ممکن است حاوی حاشیه نویسی یا annotation اضافی و یا اطلاعات دیگری باشد. شماره دسترسی یا accession number برای رکوردهای ژنوم RefSeq شامل پیشوند “” NC_ است که به آنها اجازه می دهد به راحتی از رکوردهای INSDC متمایز شوند.
به عنوان مثال، رکورد ژنوم RefSeq برای انتروباکتریا فاژ T4 دارای NC_000866 است اما از رکورد INSDC AF158101 مشتق شده است. به طور معمول، اولین ژنوم ارسال شده برای یک گونه خاص به عنوان RefSeq انتخاب می شود و پس از ایجاد RefSeq، سایر ژنوم های تایید شده برای آن گونه به عنوان “genome neighbor” نمایه می شوند.
به این ترتیب، مدل دادههای RefSeq ویروسی تاکسونومی محور است، یا به طور خاص، گونه محور است و تمام رکوردهای RefSeq و genome neighbors در سطح گونه نمایه میشوند. این مدل نیازمند مرزبندی گونههای ویروسی منفرد و هم گروهبندی توالیهای ژنوم به گونههای تعریفشده می باشد.
انتخاب رکوردهای RefSeq و سایر ژنوم های معتبر، شامل چندین معیار است. معیار اول، به عنوان یک قاعده کلی، تمام رکوردهای RefSeq شامل حاشیه نویسی ژنها و پروتئینها هستند. با این حال، سایر ژنومهای تایید شده ممکن است شامل حاشیه نویسی از ویژگی های توالی نباشند یا فقط شامل حاشیه نویسی جزئی باشند.
معیار دوم، طول ژنوم بر اساس استانداردهای پذیرفته شده توسط جامعه تایید میشود. برای برخی از ویروسها، این بدان معناست که توالی باید کل ژنوم را در بر بگیرد و در موارد دیگر، زمانی که توالیهای پایانی به سختی به دست میآیند، توالی باید کل ناحیه کدکننده ویروس را پوشش دهد.
معیار سوم، توالیهای ثبت اختراع و توالیهای سنتتیک بهعنوان RefSeq یا ژنومهای تایید شده درج نمیشوند. معیار چهارم، هنگامی که رکوردهای RefSeq برای ژنوم های ویروسی متشکل از بخش های متعدد ایجاد می شود، یک مجموعه ژنوم واحد با چندین رکورد نوکلئوتیدی RefSeq نشان داده می شود، به عبارت دیگر برای هر بخش یک رکورد RefSeq اختصاص داده می شود.
در حال حاضر 71628 بخش ژنوم ویروسی تایید شده در پایگاه های داده INSDC، وجود دارد که شامل توالی های آنفولانزا هم می باشند که در یک پایگاه داده تخصصی ذخیره شده اند. این رقم نشاندهنده افزایش تقریبا 9 برابری از سال 2000 است و این افزایش نشاندهنده افزایش مداوم تعداد ویروسهای جدید توالییابی شده می باشد.
بخشهای ژنوم RefSeq در بین همه ویروسها توزیع شدهاند، اما بخشهای مجاور ژنوم در بین ویروسهای کوچکتر، ssDNA، RNA رونویسیکننده یکپارچه متمرکز شدهاند. اگرچه بسیاری از این ژنومهای مجاور در میان پاتوژنهای انسانی متمرکز شدهاند، اما چندین ویروس با تعداد بالایی از ژنوم های توالی یابی شده نیز وجود دارند که ار لحاظ صنعت کشاورزی حائز اهمیت می باشند.