متاآنالیز در مطالعات بیان ژن
در این مطلب روشهایی را برای آزمایشهای ژنومی مستقل با کارایی بالا، با تمرکز بر انطباق روشهای سنتی از بررسی سیستماتیک آزمایشهای بالینی و مطالعات اپیدمیولوژیک معرفی میکنیم. ابتدا، روشهایی را برای شناسایی، کسب و آمادهسازی دادههای فردی بیمار برای متاآنالیز بررسی میکنیم.
ما بر بیان ژن های افتراقی تمرکز می کنیم زیرا در دسترس بودن عمومی داده ها از ریزآرایه های بیان ژن بسیار فراتر از هر روش ژنومی دیگر است.
با این حال، این روشها انعطافپذیر بوده و برای سایر انواع دادههای ژنومی و اهداف مطالعات مختلف قابل استفاده هستند. مرور سیستماتیک و متاآنالیز سنتی تلاش میکند تا ناسازگاری و عدم قطعیت را در کارآزماییهای بالینی در مورد اثربخشی یک درمان یا مطالعات مشاهدهای ارتباط بین یک عامل خطر و پیامد سلامتی برطرف کند. در این شرایط باید دقت زیادی برای انتخاب مطالعه و حذف مطالعات غیرقابل مقایسه انجام شود تا از سوگیری در تحلیل جلوگیری شود.
برخلاف مطالعات سنتی در مورد یک درمان، در این روش هزاران متغیر مشاهده میشود. معیارهای ارتباط تقریبا هرگز به طور مداوم گزارش نمیشوند و در عوض باید برای هر مطالعه با استفاده از دادههای بیمار فردی (IPD) محاسبه شوند. تصور اینکه نتایج ترکیب شده می تواند تحت تأثیر سوگیری ناخواسته متاآنالیزور قرار گیرد دشوار است، اما چالش های مختلفی وجود دارد.
در این مطلب توصیههایی را ارائه میکنیم و رویکردهایی را برای مقابله با این چالشها توصیه میکنیم و روشهای مرتبط از متاآنالیز سنتی را مرور میکنیم. با استفاده از روشهای ساده و از نظر آماری تثبیتشده، متاآنالیز این امکان را فراهم میکند که بر برخی از محدودیتهای ابعاد بالا و اثرات دستهای که ذاتی زیستشناسی با توان عملیاتی بالا هستند غلبه کرد و نشانگرهای زیستی بسیار قوی ایجاد کرد.
کامل ترین رویکرد برای شناسایی مجموعه داده، مرور متون سیستماتیک است. نقاط شروع جستجوی عبارت PubMed برای انواع سرطان های متعدد در پایگاه داده GeneSigDB ارائه شده است. با این حال، اکثریت دادههای بیان ژن با حجم بالا از طریق Gene Expression Omnibus (GEO) یا ArrayExpress دوباره توزیع میشوند و دسترسی به دادههای این منابع به طور قابلتوجهی آسانتر است و پایدارتر از دادههای وبسایتها در دسترس است. جایگزینهای دیگری مانند InSilicoDb، Oncomine و Bioconductor (BiocViews: ExperimentData, RNAExpressionData) هستند.
آزمایشهای Omnibus بیان ژن در GEO با سری (کدهای GSE) نشان داده می شوند که گهگاه به عنوان مجموعه داده (کدهای GDS) تنظیم می شوند. مجموعه ممکن است از یک پلتفرم واحد (GPL) یا چند پلتفرم تشکیل شده باشد. پلتفرم ها (GPL) شناسه های پلتفرم خاص را حاشیه نویسی می کنند و معمولا نقشه هایی را برای شناسه های ژن استاندارد ارائه می دهند.
با این حال، باید توجه داشت که حاشیهنویسیهای GPL عموما توسط نویسنده ارائه شدهاند، بنابراین پلتفرمهای مختلف حاشیهنویسیهای متفاوت یا حاشیهنویسیهای مشابهی را بر اساس ساختارهای مختلف ژنوم ارائه میدهند. در صورت امکان، استفاده از حاشیه نویسی از بسته های Bioconductor db (BiocViews term AnnotationData) یا BioMart توصیه می شود.
هنگامی که حاشیه نویسی های خاص سازنده در دسترس نیست، Bioconductor یا Biomart همچنان می تواند برای شناسه های پایدار مانند Entrez Gene یا Refseq به جای استفاده از شناسه های ناپایدار و بالقوه قدیمی، مانند نمادهای ژن، مستقیما از حاشیه نویسی های GPL استفاده شود. GEO در Bioconductor توسط پکیج GEOmetadb برای جستجوی متاداده و پکیج GEOquery برای دانلود داده های بیان و پلت فرم به خوبی پشتیبانی می شود.
در مطالعات متا آنالیز، پیش فیلتر کردن ژن هنگامی که دادههای همه مطالعات پیش پردازش شدند، بهتر است بررسی شود که آیا ویژگیها واقعاً سیگنال بیولوژیکی یکسانی را اندازهگیری میکنند، به ویژه زمانی که داده ها از پلتفرم های مختلف به دست آمد. ایده اصلی پشت این رویکرد این است که ژن ها باید با همان مجموعه ژن های دیگر در بسترها و مطالعات بیان شوند.
متاآنالیز مجموعه دادههای ژنومی، حتی با استفاده از روشهای آماری پایه، ابزار قدرتمندی برای توسعه نشانگرهای زیستی قوی است. با این حال روشهای آماری تخصصی هنوز مورد نیاز است. مهمترین موانع برای استفاده موفقیتآمیز از متاآنالیز ژنومی، در دسترس بودن عمومی دادهها و حاشیهنویسیها یا annotation برای تجزیه و تحلیل مستقیم دادههای فردی بیمار است. از آنجایی که توالی یابی RNA با فناوری ریزآرایه به عنوان روش غالب پروفایل رونویسی پیشی میگیرد، ضرورت حفظ حریم خصوصی بیمار چالشهای جدیدی را برای اشتراکگذاری دادهها ایجاد میکند که فراتحلیل را ممکن میسازد.
همچنین بخوانید:
نویسنده: مریم آقازاده