RSS

بایگانی برچسب‌ها: big data

محل زندگی داده‌ها

پایگاه داده را نمی‌توان به یک قلعه تشبیه کرد. شاید بیشتر بتوان آنرا شبیه یک باغ دانست. در مقاله‌ای که می‌خوانید با ده پایگاه داده خارق‌العاده آشنا خواهید شد که نقشی فراتر از ذخیره داده‌ها دارند. این ده پایگاه داده به محققان و کارشناسان در موارد متعددی از قبیل حل معماهای پیچیده جنایی و بستن پرونده‌های پلیسی که شاید چندین دهه راکد بوده‌اند، پیش‌بینی رکود اقتصادی و نجات جان انسان‌ها کمک می‌کنند.

Datacenter

سیستم ترکیبی شاخصگذاری دی‌ان‌ای

حل معما‌های پرونده‌های راکد با داده‌های ژنتیک

زمانی که در سال 1990 اف‌بی‌آی ساخت پایگاه داده بزرگ دی‌ان‌ای (سیستم ترکیبی شاخصگذاری دی‌ان‌ای یا CODIS) را آغاز کرد، کارشناسان فقط می‌توانستند در مواردی از داده‌های این پایگاه استفاده کنند که شواهدی از صحنه جرم و یک متهم خاص وجود داشت. به عبارتی، توان پردازش در حدی بود که فقط برای نمونه کوچکی مثل تطبیق مشخصات دی‌ان‌ای متهم و نمونه یافته شده در صحنه جرم امکان جستجو در پایگاه داده وجود داشت. اما کودیس امروزه می‌تواند نمونه دی‌ان‌ای به دست آمده در صحنه جرم را با میلیون‌ها نمونه دی‌ان‌ای ثبت شده در پایگاه داده مقایسه کرده، نمونه‌های مشابه را یافته و فهرستی از افراد مظنون به دست دهد. با این کار حتی می‌توان جواب سوالهای موجود در پرونده‌های راکد را نیز یافت و بعضا افرادی را یافت که چندین دهه تحت تعقیب پلیس بوده‌اند یا هویتشان مجهول مانده بود. بیشتر نمونه‌های موجود در بانک اطلاعاتی از متهمان و محکومان گرفته شده است، اما تحلیلگران به طور مرتب نمونه‌های جدیدی را که از صحنه‌های جرم، بقایای غیرقابل شناسایی اجساد و نمونه‌های موجود از افراد گم شده به دست می‌آیند به این بانک اضافه می‌کنند. تا کنون، کاراگاهان از کودیس در بیش از 000/143 پرونده استفاده کرده‌اند. مثلا در تابستان گذشته وقتی به صورتی کاملا تصادفی نمونه دی‌ان‌ای شخصی در کودیس ثبت شد، برادر گم شده‌اش که از سال 1989 دیگر به منزل بازنگشته بود، پیدا شد. در واقع جسد برادر وی سالها پیش پیدا شده بود، اما قابل شناسایی نبود. تقریبا همزمان با این کشف، 10 میلیون‌امین نمونه نیز در کودیس ثبت شد: نمونه‌ای از یک قاتل سریالی خطرناک که به احتمال زیاد پلیس موفق خواهد شد برخی نمونه‌های پرونده‌های راکد را نیز با نمونه دی‌ان‌ای وی تطبیق دهد.

 

دایره المعارف زندگی

تعقیب هر ارگانیسم روی کره زمین

چهار سال پیش، موسسه اسمیتسونیان (Smithsonian)، موزه تاریخ طبیعی آمریکا، دانشگاه هاروارد، باغ گیاهشناسی میسوری، آزمایشگاه بیولوژی دریایی و کتابخانه میراث تنوع زیستی آمریکا به صورت مشترک مجموعه‌ای کامل با اطلاعاتی در مورد هر موجود زنده روی کره زمین ایجاد کردند. تا کنون، محققان این کنسرسیوم اطلاعات 40 درصد از 9/1 میلیون گونه شناخته شده روی زمین را ثبت کرده‌اند. دوست دارید اطلاعاتی در مورد فعالیت شبانه میمون پوزه‌دار ماداگاسکار به دست آورید؟ دوست دارید نقشه‌ای از توزیع جغرافیایی قاچ عسل (Honey fungus یا Armillaria) داشته باشید که شبکه بسیار ظریف آن زیر سطح زمین در هزاران هکتار زمین پراکنده است و شاید بزرگترین ارگانیزم زنده روی سیاره باشد؟ اطلاعاتی از این قسم در این دایره المعارف پیدا می‌شود. محققان اطلاعات را از صدها منبع مختلف مانند پایگاه داده بارکد زندگی (Barcode of Life) و مورف‌بانک (Morphbank) به دست می‌آورند، قالب آنرا به صورت مناسب و استاندارد تعریف شده برای این پایگاه داده درمی‌آورند و در ردیف گونه‌های مرتبط جای می‌دهند. با ترکیب اطلاعات متفرق و گسسته موجود در یک پایگاه داده واحد، می‌توان ارتباطات جدیدی بین گونه‌های مختلف یافت. زیست شناسان با بررسی الگوهای نمونه‌های مختلف و شباهت‌های آنها در مقاومت نسبت به بیماری‌ها در دایره المعارف زندگی (Encyclopedia of Life) یا EOL، تلاش می‌کنند گونه‌ها و ژن‌های جدیدی بیابند که در مطالعات مربوط به طول عمر، تولید واکسن و سایر تحقیقات پزشکی کاربرد داشته باشد. با روند فعلی، EOL تا سال 2017 اطلاعات مربوط به هر گیاه، جانور، حشره یا میکروب روی زمین را در اختیار خواهد داشت.

 

FAOSTAT

کمک به دانشمندان در تولید غذای بیشتر برای جهان

پایش تامین غذای جهان مواردی از قبیل بررسی داده‌های کشاورزی، استفاده از زمین، ماهیگیری، جنگلداری، کمک‌های غذایی، تغذیه و رشد جمعیت را شامل می‌شود. برای در اختیار داشتن اطلاعات دقیق و مفید، محققان در سازمان غذا و کشاورزی سازمان ملل (FAO)، بانک اطلاعاتی به نام فائواستات (FAOSTAT) ایجاد کرده‌اند که شامل بیش از یک میلیون داده آماری مربوط به پنجاه سال اخیر 245 کشور جهان و سرزمین‌های مختلف است. به عنوان مثال، با استفاده از فائواستات، محققان می‌توانند به راحتی دریابند که در سال 2000 کالری دریافتی روزانه انسانها 249 واحد بیش از بیست سال پیش از آن یعنی 1980 بوده است؛ یا 70 درصد آب مصرفی بشر صرف کشاورزی می‌شود؛ یا اینکه تقریبا 2000 راس بز و گوسفند در سراسر جهان وجود دارند؛ و با اینکه در کره زمین به اندازه کافی غذا برای تمامی انسانها تولید می‌شود، اما تقریبا 13 درصد آنها از دریافت غذا به میزان مناسب محرومند. از سال 2010، فائو داده‌های فائواستات را به صورت رایگان در اختیار همگان گذاشته است. با اینکار، تعداد کاربران این بانک اطلاعاتی از 400 به 500/11 عدد رسیده است. در بین این کاربران، دولتها و سازمانهای غیردولتی (NGO) وجود دارند که به فکر پیدا کردن راههای بهتر برای سیر کردن مردم کره زمین هستند. در آخرین مطالعات انجام شده، وزارت کشاورزی چین با استفاده از اطلاعات فائو، میزان استفاده از زمین‌های کشاورزی در 19 کشور جهان را با نرخ مواد غذایی ضروری تولید شده توسط آنها مقایسه کرد و به نتایج جالبی دست یافت: زمین‌های کشاورزی چین مازاد نیروی انسانی دارند. به عبارت دیگر، افراد بیشتری روی زمین‌های کشاورزی در چین کار می‌کنند و اگر این افراد به شهرها کوچانده شوند، می‌توان از نیروی انسانی استفاده مناسبتری کرد.

 

پروژه ژنوگرافیک

دنبال کردن تاریخ بشر از طریق دی‌ان‌ای

بهترین منبع تحقیق در خصوص مهاجرت انسان‌های نخستین نه استخوانهای بجا مانده از آن زمان و نه مصنوعات ساخت بشر اولیه، بلکه دی‌ان‌ای انسان‌های امروزی است. در سال 2005، به منظور در دسترس قرار دادن این اطلاعات، انجمن جغرافیای ملی (National Geographic Society) و IBM پروژه ژنوگرافیک را به صورت مشترک آغاز کردند. این پروژه کیت‌های مجموعه دی‌ان‌ای را به افراد می‌فروشد و تحلیلی از پیشینیان آنها ارائه می‌کند. از افراد خواسته می‌شود در صورت تمایل نتیجه حاصله را در یک بانک اطلاعاتی مخصوص وارد نمایند که اطلاعات دی‌ان‌ای افراد بومی گردآوری شده توسط نسل شناسان دیگر از 10 آزمایشگاه دیگر را نگهداری می‌کند. اطلاعات مذکور بدون نام و مشخصات فردی افراد در بانک اطلاعاتی ذخیره می‌شود. با داده کاوی 000/420 پروفایل ذخیره شده در بانک اطلاعاتی، دانشمندان می‌توانند در خصوص تکامل ژنتیکی جمعیت‌های بشری و نسل‌ها اطلاعاتی به دست بیاورند و بر اساس آن رد پای این تکامل را در انسان‌های ماقبل تاریخ نیز دنبال نمایند. در سال 2008، با مطالعه اجداد مادری 624 ژنوم از آفریقا، محققان پروژه ژنوگرافیک دریافتند که اگرچه تمامی انسان‌ها در دی‌ان‌ای موجود در انسان 000/000/200 سال پیش (زن میتوکوندریال) مشترک هستند، انسان‌های نخستین مرتبا به گروه‌های مختلفی تقسیم شده‌اند. گروه‌های کوچکی از انسانها سالها پیش در گروههای جداگانه‌ای و به صورت مجزا زندگی و تکامل یافته‌اند و سرانجام در عصر حجر مجددا در یک اجتماع یکسان متحد شده‌اند.

 

پنل بین المللی مرکز توزیع داده‌های تغییرات آب و هوایی

پیش بینی سرنوشت سیاره زمین

پیش از آنکه پنل بین المللی تغییرات آب و هوایی مرکز توزیع داده (Data Distribution Centre یا DDC) خود را در سال 1998 راه اندازی کند، محققانی که به اطلاعات و آمار تغییرات آب و هوا نیاز داشتند ناچار بودند آنها را از تعدادی از دانشمندان و محققان که در مدلسازی داده‌های آماری مربوطه خبره بودند به دست بیاورند. به تدریج اطلاعات درخواستی از مدلسازان بیشتر و بیشتر شد، درخواست‌ها روی هم تلمبار گردید و تحلیل و استخراج داده‌ها به کاری طاقتفرسا و کسل کننده تبدیل شد. بدتر از همه اینکه هر بار کارشناسان مدلسازی فرضیات متفاوتی برای قالب‌بندی داده‌ها در محاسبات خود لحاظ می‌کردند و این کار مقایسه داده‌های به دست آمده از گزارش‌های مختلف را مشکلتر می‌کرد. اما امروزه، DDC به عنوان منبع یگانه اطلاعات در خصوص آب و هوای کره زمین خدمت‌رسانی می‌کند. تحلیلگران DDC داده‌های به دست آمده از مدل‌های متفاوت را پیش از وارد کردن به بانک اطلاعاتی، به قالب‌های سازگار و قابل استفاده تبدیل می‌کنند. با این امکان، به عنوان مثال اگر دانشمندی بخواهد تاثیرات گرمایش جهانی را روی تولید ذرت در چین مطالعه کند، می‌تواند از مجموعه داده‌های موجود که بر اساس 49 مدل آماری مختلف ایجاد شده است استفاده نماید و اطلاعات خروجی را با قالب مناسب دریافت نماید.

 

MD:PRO

متمرکزسازی دژ ضد برنامه‌های مخرب

پروژه MD:PRO با داشتن کاتالوگی از بیش از 15 میلیون برنامه کامپیوتری مخرب، تبدیل به مرکز کنترل بیماری‌های امنیت سایبری در سرتاسر جهان شده است. خدمات امنیتی Frame4 که در سال 2006 در هلند راه اندازی شد، پایگاه داده‌ای را به عنوان مرجع کارشناسان و خبرگان امنیت ایجاد کرد که بتوانند در صورت نیاز یک برنامه مخرب خاص را برای تحلیل و بررسی بیشتر و تولید برنامه‌های دفاعی مناسب دریافت کنند.  تحلیلگران Frame4 نمونه‌ها را با استفاده از کامپوتر‌هایی به نام کوزه عسل (honeypot- یک شگرد متداول امنیتی برای به دام انداختن یا منحرف کردن برنامه‌های مخرب. کامپیوتری که نقش کوزه عسل را ایفا می‌کند، حاوی اطلاعات مهم حقیقی نیست و صرفا باعث جلب توجه هکرها، ویروس‌ها و سایر برنامه‌های مخرب می‌شود.) این کامپیوترها از لحاظ فنی و مالی مورد حمایت شرکت‌های تولید کننده نرم‌افزارهای امنیتی و آنتی ویروس هستند. تحلیلگران می‌توانند در عوض کمک‌های خود از طریق سایت FTP پروژه MD:PRO نمونه تهدیدات امنیتی و بدافزارها را دریافت نمایند. در کنار برخی از این برنامه‌ها، کد منبع آنها نیز وجود دارد. به منظور جلوگیری از سوء استفاده از اطلاعات سایت، Frame4 اطلاعات کاربران خود را ذخیره می‌کند. از زمان تقویت موتور پردازشگر MD:PRO از سال گذشته میلادی، حجم این بانک اطلاعاتی رشدی در حدود یک میلیون نمونه در ماه داشته است.

دوست‌یابی در OKCUPID

کشف نحوه ایجاد روابط بین انسان‌ها

در دو سال گذشته چهار فارغ التحصیل دانشگاه هاروارد که سایت دوست‌یابی OkCupid را تاسیس کرده‌اند، به مطالعه نحوه دوست‌یابی کاربران این سایت پرداخته‌اند تا بتوانند رفتار انسان را در خصوص دوست‌یابی و ارتباط با جنس مخالف بیشتر بشناسند و نتایج آنرا منتشر نمایند. این سایت هفت میلیون کاربر فعال دارد، که هر یک از آنها به طور میانگین به 200 سوال شخصی پاسخ می‌دهد. در فرایند ارسال پیام، چت کردن، مبادل عکس و جستجوی سایرین، میلیاردها داده تولید می‌شود که شرکت آنها را به منظور کشف نکات حساس و مهم می‌کاود. بسیاری از نتایج به دست آمده در وبلاگ OkTrends منتشر شده است که برخی از آنها نیز کمی تامل برانگیز است: مثلا زنان سیاه پوست بیشتر از سایر گروه‌ها به پیام‌های ارسال شده پاسخ می‌دهند، و البته کمتر از بقیه نژادها پاسخ دریافت می‌کنند؛ حتی از سوی مردان سیاه پوست. در مقایسه، مردان سیاه پوست بیشتر از تمامی گروه‌های جنسی و نژادی پاسخ دریافت می‌کنند و البته 20 درصد کمتر از مردان غیرسفید پوست به پیام‌های دریافتی جواب می‌دهند. سایر یافته‌ها تا این حد عجیب نیستند. نتایج بررسی این گروه نشان می‌دهد که برای جلب توجه در برخورد اول رعایت نکاتی ساده می‌تواند شانس شما را افزایش دهد: اگر مرد هستید، متواضع باشید و سعی نکنید که جلب توجه کنید. اگر زن هستید، تصاویر با لباس یقه‌باز از خودتان روی سایت قرار دهید.

پایگاه داده نقشه‌برداری دیجیتالی آسمان Sloan

ایجاد نقشه کیهان

در سال 1998، ستاره شناسان به کمک تلسکوپ 5/2 متری اسلون (Sloan) در نیومکزیکو شروع به ایجاد نقشه آسمان و بارگذاری تصاویر به دست آمده در یک پایگاه داده به نام پایگاه داده نقشه‌برداری دیجیتالی آسمان اسلون (Sloan Digital Sky Survey Database یا SDSS) کردند. از آن پس، ستاره شناسان با استفاده از بیش از 100 ترابایت فضای ذخیره سازی موجود در این پایگاه داده، نقشه و مشخصات بیش از نیم میلیارد ستاره، کهکشان، سیارک و نواختر را در آن ذخیره کرده و نقشه‌ای سه بعدی از فضای خارج از کهکشان ما ایجاد کرده‌اند. با این کار دانشمندان قادرند به مطالعه ساختار جهان بپردازند. در سال 2010، دانشمندان موفق شدند پاسخ این سوال که چرا کوتوله‌ها ردی از فلز در اتمسفر خود دارند را با استفاده از داده‌های SDSS بیابند. با مقایسه نقشه‌های هزاران کوتوله سفید تازه شناسایی شده در SDSS و سایر ستاره‌ها، دانشمندان متوجه شدند که احتمالا غبار مشاهده شده، تکه‌ها و خاک و شن باقیمانده از سیارات و موادیست که زمانی شامل آب هم بوده‌اند. از آنجایی که راه شیری شامل تعداد بسیار زیادی از کوتوله‌های سفید است، دانشمندان چنین استدلال می‌کنند که احتمالا تعداد سیاره‌های آبی و سنگی بیش از آنچیزیست که در گذشته تصور می‌شد. به همین دلیل، احتمال وجود حیات فرازمینی در کهکشان ما بیش از پیش‌بینی‌های گذشته است.

ماشین Wayback

بایگانی دایمی وب

هدف ماشین Wayback کپی کردن و ذخیره سازی اینترنت است. از زمانی که بایگانی اینترنت (Internet Archive) پایگاه داده خود را در 15 سال پیش ایجاد کرد، نرم‌افزارهای مخصوص کاوش و شاخصگذاری اینترنت (crawler) نزدیک به 180 میلیارد صفحه وب را از بیش از 200 میلیون وبسایت ثبت کرده‌اند. اکنون، با اندازه‌ای بالغ بر 4 پتابایت (هر پتابایت 1024 ترابایت است) و رشد تقریبی ماهیانه 35 تا 40 ترابایت، ماشین Wayback بزرگترین بایگانی وب موجود در جهان است. می‌توانید با مراجعه به web.archive.org، آدرس (URL) یک سایت را در صفحه اول سایت وارد کنید. این آدرس می‌تواند مثلا یک وبلاگ قدیمی باشد که سالهاست بروز نشده است. Wayback به شما تقویمی از تاریخ‌هایی که محتوای سایت مورد نظر در آنها ضبط شده نشان می‌دهد. سپس می‌توانید با مراجعه به تاریخ مورد نظر، محتوای سایت را در همان روز مشاهده نمایید. حتی ساعت ضبط محتوای صفحه نیز با قرار دادن نشانگر ماوس روی تاریخ مورد نظر از تقویم مذکور قابل مشاهده است. استفاده از این ماشین رایگان است. بنابراین، هر محقق یا فرد کنجکاوی می‌تواند از آن برای بررسی روند تحولات وب و داده‌های موجود روی آن در گذر زمان استفاده نماید. به عنوان مثال، محققان کتابخانه کنگره آمریکا از Wayback برای ایجاد نمایشگاهی از محتوای برخی سایتها در روز حادثه 11 سپتامبر و سه ماه پس از آن استفاده کردند.

Database of Databases

WORLDCAT

ارتباط تمامی کتابخانه‌های جهان

از زمانی که اولین مرکز غیرانتفاعی کتابخانه آنلاین، WorldCat را در 40 سال پیش ایجاد کرد، کتابداران سراسر جهان اطلاعات فهرست بیش از 75/1 میلیارد کتاب را از 000/72 کتابخانه در 170 کشور در آن وارد کرده‌اند. کتابداران از این بانک اطلاعاتی برای دسترسی به اطلاعات کتب استفاده می‌کنند. اعضای کتابخانه‌ها و کسانی که تمایل به امانت گرفتن کتاب دارند می‌توانند از طریق برنامه موبایل WorldCat به دنبال کتاب، فیلم، نقشه و موسیقی در کتابخانه‌های نزدیک به خود بگردندمحققان، می‌توانند با داده‌کاوی اطلاعات موجود در این بانک اطلاعاتی به بررسی روند تغییرات فرهنگی و تاریخی بپردازند و حتی تغییرات آینده را پیش بینی نمایند. مثلا، یکی از اقتصاددانان دانشگاه تورنتو با بررسی اطلاعات WorldCat متوجه شد که فراز و نشیب در تعداد کتابهای جدید حوزه فناوری می‌تواند با فاصله زمانی تقریبی یک سال، به ترتیب نشاندهنده رونق و رکود اقتصادی باشد.

 ********

یک بانک اطلاعاتی از بانک‌های اطلاعاتی

در سال 1989 مهندس انگلیسی، تیم برنرز لی با استفاده از هایپرتکست و ارتباط دادن مستندات روی اینترنت وب را اختراع کرد. اکنون وی قصد دارد بزرگترین و مفیدترین بانک اطلاعاتی جهان را بسازد: Linked Data. همانطور که وب مستندات HTML را به یکدیگر وصل می‌کند، Linked Data اطلاعات یافت شده در بانکهای اطلاعاتی باز (قابل دسترس عموم) را روی بستر وب به یکدیگر متصل می‌کند. اما همانطور که جستجوی وب می‌تواند شما را به یه فایل صفحه گسترده اکسل برساند که حاوی اطلاعات مورد نظرتان باشد، جستجوی این شبکه عظیم از اطلاعات و بانکهای اطلاعاتی می‌تواند کامپیوتر شما را به داده کاوی شبکه‌ای از بانک‌های اطلاعاتی قابل فهم برای ماشین هدایت کند و تمامی اطلاعات مرتبط با جستجوی شما را که در آن یافت شود به شما بازگرداند. برنرز لی مثالی از تحقیقات آلزایمر می‌زند: جستجوی گوگل به دنبال پروتئین‌های موثر در انتقال سیگنال عصبی و نرون‌های هرمی نقریبا بی‌نتیجه است؛ در صورتیکه جستجوی Linked Data که بانک‌های اطلاعاتی حاوی داده‌های وراثتی را به بانک‌های اطلاعاتی مربوط به رفتار پروتئین متصل می‌کند و به شما نام 32 پروتئین را بازمی‌گرداند که برای بررسی و تحقیق بیشتر مناسبند. در پاییز سال گذشته برنامه‌نویسان در کنسرسیوم وب (World Wide Web Consortium) 203 بانک اطلاعاتی را با استفاده از 395 میلیون ارتباط به یکدیگر متصل کردند. هدف نهایی، توسعه Linked Data تا جایی است که تمامی داده‌های تولید شده در جهان به صورت بلادرنگ (realtime) به یکدیگر متصل باشند. برای اطلاعات بیشتر در ارتباط با این پروژه می‌توانید به سایت linkeddata.org مراجعه نمایید.

تیم برنرز لی خالق وب در حال ارائه مدل Linked Data در کنفرانس تد 2009

********

منبع: پاپیولار ساینس

 
بیان دیدگاه

نوشته شده توسط در 2012/10/17 در Big Data, Information Technology

 

برچسب‌ها: , , , , , , , , , , , ,