نگاهی بر پایگاه داده های مرتبط با داده های بیانی ژن ها
پایگاه داده ی GEO
Gene Expression Omnibus (GEO) یک پایگاه داده پشتیبانی شده توسط مرکز ملی اطلاعات بیوتکنولوژی (NCBI) در کتابخانه ملی پزشکی (NLM) است که داده های خام و پردازش شده را با توضیحات مکتوب در مورد طراحی آزمایش، ویژگی های نمونه و روش های مطالعاتی high throughput بیان ژن ها، می پذیرد.
در سال 1995، معرفی ریزآرایه های DNA یا DNA microarray و همچنین پروتکل آنالیز سریالی بیان ژن یا SAGE به عنوان روش هایی برای سنجش همزمان بیان چندین ژن، دانشمندان را قادر ساخت تا بیان صدها تا هزاران ژن را مطالعه کنند، در نتیجه مقیاس آزمایشی را به میزان قابل توجهی افزایش دادند و درک بسیار کامل تری از فرآیندهای بیولوژیکی در مقایسه با مطالعات تک ژنی قبلی فراهم آوردند.
فناوری ریزآرایه یا microarray به سرعت بر حوزه مطالعات بیان ژنی high throughput تسلط یافت و با توالییابی ژنوم انسان و بسیاری از ارگانیسمهای مدل، بیان ژن در سراسر ژنوم و سایر مطالعات ژنومی عملکردی در اوایل دهه 2000 رایج شد. سرعت فزاینده تولید دادهها در سطح ژنومی و همچنین فایلهای داده خام و پردازششده حجیمی که تولید می شد، چالشی را برای آزمایشگاهها یا مجلات ایجاد کرد تا دادهها را در دسترس جامعه تحقیقاتی قرار دهند. در سال 2000، NCBI پایگاه داده GEO را به عنوان یک مخزن برای داده های بیان ژن high throughput راه اندازی نمود.
در سال 2002، مجلات بزرگ درخواست دادن تا داده های microarray در مخازن و پایگاه داده های عمومی قرار بگیرند و در نتیجه محتوای GEO به سرعت رشد کرد. علاوه بر این، ماهیت آزمایشهای ژنومیhigh throughput گسترش یافت و برای اولین بار microarray بر مبنای تجزیه و تحلیل بیان ژن انجام گرفت و بنابراین پایگاهداده GEO به طور مشابه برای همگام شدن با فناوریها و برنامههای کاربردی در حال تغییر، تکامل یافت.
امروزه GEO دادهها را از طیف گستردهای از فناوریها، از جمله ریزآرایههای DNA، آرایههای پروتئینی یا بافتی، توالییابی high throughput اسید نوکلئیک، SAGE و RT-PCR میپذیرد. در حالی که اکثریت، تقریباً 90 درصد از دادهها در GEO در واقع دادههای بیان ژن هستند، با این حال داده ها در مورد متیلاسیون ژنوم، اتصال یا اشغال ژنوم، پروفایل پروتئین، مطالعات کانفورماسیون کروموزوم، و تنوع ژنوم و copy number در حال افزایش می باشد.
نکته جالب توجه اینکه واژه ی geo پیشوندی به معنای “زمین” می باشد، زیرا GEO نه تنها در درجه اول میزبان داده های بیان ژن جهانی است، بلکه خود GEO در واقع یک منبع جهانی است. طبق آمار تا سال 2016 پایگاه داده ی GEO شامل موارد ارسالی از 72 کشور بود و هیچ هزینه ای برای ارسال داده به پایگاه داده ی GEO، دانلود داده یا استفاده از ابزار GEO وجود نداشت.
دانشمندان داده های بیانی خود را به پایگاه داده ی GEO ارسال می کنند تا داده های خود را با جامعه تحقیقاتی به اشتراک بگذارند. خلاصه ای به روز از انواع داده ها و محتوای GEO در http://www.ncbi.nlm.nih.gov/geo/summary/ ارائه شده است.
سه هدف اصلی پایگاه داده ی GEO عبارتند از:
- ارائه یک پایگاه داده قوی و همه کاره که در آن داده های ژنومی عملکردی high throughput ذخیره می شود.
- روشها و فرمتهای ساده برای ارسال داده ارائه می دهد تا از داده های کامل و مشروح جامعه ی پژوهشی پشتیبانی نماید.
- مکانیزم های کاربرپسند ارائه می دهد تا کاربران بتوانند پرسوجو، مکانیابی، بررسی و دانلود مطالعات و پروفایلهای بیان ژن مورد علاقه خود را انجام دهند.
داده های GEO را می توان به چند روش بازیابی و تجزیه و تحلیل کرد:
برای مشاهده یک رکورد GEO خاص که شماره دسترسی آن را دارید، از کادر دسترسی GEO که در صفحه اصلی GEO یا در بالای هر رکورد GEO قرار دارد، می توانید استفاده کنید.
برای دانلود داده ها، می توانید از گزینه های مختلف توضیح داده شده در صفحه Download GEO data استفاده کنید.
برای یافتن سریع دادههای مرتبط با علایق خود، مجموعه دادههای GEO و نمایههای GEO را می توانید جستجو کنید:
GEO DataSets یک پایگاه داده ی study-level است که کاربران می توانند مطالعات مورد نظر خود را جستجو کنند. پایگاه داده ی GEO DataSets توضیحات تمام رکوردهای ارائه شده توسط ارسال کننده اصلی و همچنین مجموعه داده های مدیریت شده را ذخیره می کند. اطلاعات بیشتر درباره GEO DataSets و نحوه تفسیر صفحات نتایج GEO DataSets را می توانید در صفحه About GEO DataSets بیابید.
GEO Profiles یک پایگاه داده در سطح ژن است که کاربران می توانند پروفایل های بیانی مربوط به ژن های مورد مطالعه ی خود را جستجو کنند. اطلاعات بیشتر درباره نمایه های GEO و نحوه تفسیر صفحات نتایج GEO Profiles را می توانید در صفحه About GEO Profiles بیابید.
جستجو در پایگاه های داده ی GEO DataSet و GEO Profiles ممکن است به طور موثر با وارد کردن کلمات کلیدی و عبارات مناسب در کادر جستجو انجام شوند. با این حال، با توجه به حجم زیادی از داده های ذخیره شده در این پایگاه های داده، اغلب انجام پرس و جوهای دقیق تر به منظور فیلتر کردن به مرتبط ترین داده ها، می تواند مفید واقع شود.
نمونه ها و جزئیات کامل در مورد نحوه انجام پرس و جوهای پیشرفته در صفحه Querying GEO DataSets و GEO Profiles ارائه شده است. بعلاوه، ابزارهای Limits و Advanced Search که در بالای صفحات GEO DataSets و GEO Profiles پیوند داده شده اند، می توانند کمک بسیاری در جست و جو های پیشرفته داشته باشند.
هنگامی که یک DataSet مورد نظر را شناسایی کردید، چندین ویژگی در رکورد DataSet وجود دارد که به شناسایی پروفایل های بیان ژن جالب در آن مطالعه کمک می کند، که از جمله ی این ابزارها می توان به ابزار آزمون t و خوشه ها اشاره نمود. اطلاعات کامل در مورد این ویژگی ها در صفحه About GEO DataSets ارائه شده است.
هنگامی که پروفایل های بیان ژن مورد نظر را شناسایی کردید، چندین پیوند در سوابق نمایه وجود دارد که به شناسایی ژن های مورد علاقه اضافی، از جمله ژن ها یا ژن های مشابه بیان شده در نزدیکی کروموزوم کمک می کند. اطلاعات کامل در مورد این پیوندها در صفحه About GEO Profiles ارائه شده است.
پایگاه داده ی SRA
Sequence Read Archive (SRA) یک بایگانی اولیه ی NIH از داده های توالی یابی high throughput و همچنین بخشی از همکاری بین المللی پایگاه داده های توالی نوکلئوتیدی (INSDC) می باشد که بخشی از NCBI تحت عنوان SRA، موسسه ی بیوانفورماتیک اروپا (EBI) و پایگاه داده های ژاپن (DDBJ) را شامل می شود. داده های ارسال شده به هر یک از سه سازمان فوق الذکر بین آنها به اشتراک گذاشته می شود.
ماموریت پایگاه داده ی SRA به شرح زیر می باشد:
داده های توالی یابی خام و اطلاعات همردیف سازی یا alignment را از پلتفرم های توالی یابی high throughput از جمله Roche 454 GS System®، Illumina Genome Analyzer®، Applied Biosystems SOLiD System®، Helicos Heliscope®، Complete Genomics®، و Pacific Biosciences SMRT®، بایگانی می کند.
دادههای توالی را در دسترس جامعه پژوهشی قرار میدهد تا قابلیت تکرارپذیری را افزایش دهد و با مقایسه مجموعه دادهها، امکان اکتشافات جدید را فراهم کند.
پایگاه داده ی SRA، داده ها از انواع پروژههای توالییابی از جمله مطالعات بالینی مهم که شامل افراد انسانی یا متاژنوم آنها که ممکن است حاوی توالیهای انسانی باشد را میپذیرد. این داده ها اغلب از طریق dbGaP (پایگاه داده ژنوتیپ ها و فنوتیپ ها) دسترسی کنترل شده دارند.
پایگاه داده ی Gene Expression Atlas
Expression Atlas یک منبع علمی باز است که به کاربران راهی قدرتمند برای یافتن اطلاعات در مورد بیان ژن و پروتئین می دهد. ماموریت پایگاه داده ی Gene Expression Atlas ارائه اطلاعات رایگان در مورد فراوانی و محلی سازی RNA (و پروتئین ها) در گونه ها و شرایط بیولوژیکی مانند بافت های مختلف، انواع سلول ها، مراحل رشد و بیماری ها به جامعه علمی می باشد.
هدف Expression Atlas کمک به پاسخگویی به سوالاتی مانند “ژن مورد علاقه من در کجا بیان می شود؟” یا “چگونه بیان آن در یک بیماری تغییر می کند؟” می باشد. برای دستیابی به این هدف، پروژه ی Gene Expression Atlas شامل پردازش داده ها، تجزیه و تحلیل داده ها و توسعه یک برنامه کاربردی تحت وب برای دسترسی و تجسم داده ها برای عموم است.
پایگاه داده ی Gene Expression Atlas نتایج بیان ژن را در بیش از 3000 آزمایش از 40 موجود مختلف از جمله متازوئه ها و گیاهان ارائه می دهد. اگرچه آزمایشهای انسانی یک سوم پایگاه داده ی Gene Expression Atlas را شامل می شود، اما Expression Atlas سایر گونههای حیوانی مانند مرغ، خوک، گاو یا گوسفند را نیز پوشش می دهد.
آزمایشهای گیاهی یک چهارم Expression Atlas را با بیش از 700 آزمایش شامل می شوند. به غیر از Arabidopsis thaliana، که گونه ای است که بیشتر نشان داده شده است، Expression Atlas شامل آزمایش هایی از 17 گونه گیاهی دیگر مانند برنج، گندم، ذرت، گوجه فرنگی یا سیب زمینی است.
Expression Atlas شامل هزاران مجموعه داده ریزآرایه و توالی RNA منتخب است که به صورت دستی توسط زیست شناسان PhD مدیریت می شوند. اطلاعات در Expression Atlas از مقالات استخراج می شود تا هر آزمایش را به طور دقیق نشان دهد و حاشیه نویسی یا annotation هر نمونه را غنی نماید. همچنین metadata های بیشتری را به نمونه ها اضافه می کند تا اطلاعات بیولوژیکی و تکنیکال را بهتر توصیف نماید.
در Expression Atlas تمام داده ها با استفاده از روش های استاندارد شده مجددا تجزیه و تحلیل می شوند.
Expression Atlas بیش از 3000 آزمایش را مجدداً تحلیل کرده است که از این تعداد بیش از 500 آزمایش RNA-seq هستند. داده های خام ریزآرایه با استفاده از package های مختلف از Bioconductor بسته به پلت فرم آرایه مورد استفاده برای انجام آزمایش تجزیه و تحلیل می شوند.
داده های RNA-seq با استفاده از pipline ای به نام iRAp تجزیه و تحلیل می شوند. آزمایشهای RNA-seq در Expression Atlas شامل مطالعات برجسته بزرگ مانند GTEx، CCLE، ENCODE یا HipSci می باشد.
در Expression Atlas اصطلاحات مورد استفاده برای حاشیه نویسی نمونه ها یا annotation با اصطلاحات هستی شناسی یا Ontology از هستی شناسی عامل تجربی (EFO) نگاشته شده اند که اینکار توسط ابزار annotation ای به نام Zooma انجام می گردد.
نگاشت های هستی شناسی یا Ontology با استفاده از سلسله مراتب هستی شناسی، امکان پرس و جوهای بسیار غنی تری را فراهم می کند، به عنوان مثال، جستجوی کارسینوم ریه مطابقت ها را به کلمه کلیدی و همچنین برای انواع فرعی مختلف مانند کارسینوم سلول بزرگ ریه برمی گرداند.
در Expression Atlas تفسیر آسان بیان ژن از طریق تجسم نتایج توسط Heatmap حاصل می شود. Expression Atlas نتایج بیان ژن را با استفاده از Heatmap نشان می دهد. در یک Heatmap، مقادیر بیان ژن به یک تصویر در مقیاس رنگی تبدیل میشوند و نمایشی بصری از سطوح بیان ژن در شرایط مختلف بیولوژیکی ارائه میدهد.
از کارآموزی بیوانفورماتیک ژنیران دیدن فرمایید:
کد سوش در برگه ncbi کجاست