پایگاه داده را نمیتوان به یک قلعه تشبیه کرد. شاید بیشتر بتوان آنرا شبیه یک باغ دانست. در مقالهای که میخوانید با ده پایگاه داده خارقالعاده آشنا خواهید شد که نقشی فراتر از ذخیره دادهها دارند. این ده پایگاه داده به محققان و کارشناسان در موارد متعددی از قبیل حل معماهای پیچیده جنایی و بستن پروندههای پلیسی که شاید چندین دهه راکد بودهاند، پیشبینی رکود اقتصادی و نجات جان انسانها کمک میکنند.
سیستم ترکیبی شاخصگذاری دیانای
حل معماهای پروندههای راکد با دادههای ژنتیک
زمانی که در سال 1990 افبیآی ساخت پایگاه داده بزرگ دیانای (سیستم ترکیبی شاخصگذاری دیانای یا CODIS) را آغاز کرد، کارشناسان فقط میتوانستند در مواردی از دادههای این پایگاه استفاده کنند که شواهدی از صحنه جرم و یک متهم خاص وجود داشت. به عبارتی، توان پردازش در حدی بود که فقط برای نمونه کوچکی مثل تطبیق مشخصات دیانای متهم و نمونه یافته شده در صحنه جرم امکان جستجو در پایگاه داده وجود داشت. اما کودیس امروزه میتواند نمونه دیانای به دست آمده در صحنه جرم را با میلیونها نمونه دیانای ثبت شده در پایگاه داده مقایسه کرده، نمونههای مشابه را یافته و فهرستی از افراد مظنون به دست دهد. با این کار حتی میتوان جواب سوالهای موجود در پروندههای راکد را نیز یافت و بعضا افرادی را یافت که چندین دهه تحت تعقیب پلیس بودهاند یا هویتشان مجهول مانده بود. بیشتر نمونههای موجود در بانک اطلاعاتی از متهمان و محکومان گرفته شده است، اما تحلیلگران به طور مرتب نمونههای جدیدی را که از صحنههای جرم، بقایای غیرقابل شناسایی اجساد و نمونههای موجود از افراد گم شده به دست میآیند به این بانک اضافه میکنند. تا کنون، کاراگاهان از کودیس در بیش از 000/143 پرونده استفاده کردهاند. مثلا در تابستان گذشته وقتی به صورتی کاملا تصادفی نمونه دیانای شخصی در کودیس ثبت شد، برادر گم شدهاش که از سال 1989 دیگر به منزل بازنگشته بود، پیدا شد. در واقع جسد برادر وی سالها پیش پیدا شده بود، اما قابل شناسایی نبود. تقریبا همزمان با این کشف، 10 میلیونامین نمونه نیز در کودیس ثبت شد: نمونهای از یک قاتل سریالی خطرناک که به احتمال زیاد پلیس موفق خواهد شد برخی نمونههای پروندههای راکد را نیز با نمونه دیانای وی تطبیق دهد.
دایره المعارف زندگی
تعقیب هر ارگانیسم روی کره زمین
چهار سال پیش، موسسه اسمیتسونیان (Smithsonian)، موزه تاریخ طبیعی آمریکا، دانشگاه هاروارد، باغ گیاهشناسی میسوری، آزمایشگاه بیولوژی دریایی و کتابخانه میراث تنوع زیستی آمریکا به صورت مشترک مجموعهای کامل با اطلاعاتی در مورد هر موجود زنده روی کره زمین ایجاد کردند. تا کنون، محققان این کنسرسیوم اطلاعات 40 درصد از 9/1 میلیون گونه شناخته شده روی زمین را ثبت کردهاند. دوست دارید اطلاعاتی در مورد فعالیت شبانه میمون پوزهدار ماداگاسکار به دست آورید؟ دوست دارید نقشهای از توزیع جغرافیایی قاچ عسل (Honey fungus یا Armillaria) داشته باشید که شبکه بسیار ظریف آن زیر سطح زمین در هزاران هکتار زمین پراکنده است و شاید بزرگترین ارگانیزم زنده روی سیاره باشد؟ اطلاعاتی از این قسم در این دایره المعارف پیدا میشود. محققان اطلاعات را از صدها منبع مختلف مانند پایگاه داده بارکد زندگی (Barcode of Life) و مورفبانک (Morphbank) به دست میآورند، قالب آنرا به صورت مناسب و استاندارد تعریف شده برای این پایگاه داده درمیآورند و در ردیف گونههای مرتبط جای میدهند. با ترکیب اطلاعات متفرق و گسسته موجود در یک پایگاه داده واحد، میتوان ارتباطات جدیدی بین گونههای مختلف یافت. زیست شناسان با بررسی الگوهای نمونههای مختلف و شباهتهای آنها در مقاومت نسبت به بیماریها در دایره المعارف زندگی (Encyclopedia of Life) یا EOL، تلاش میکنند گونهها و ژنهای جدیدی بیابند که در مطالعات مربوط به طول عمر، تولید واکسن و سایر تحقیقات پزشکی کاربرد داشته باشد. با روند فعلی، EOL تا سال 2017 اطلاعات مربوط به هر گیاه، جانور، حشره یا میکروب روی زمین را در اختیار خواهد داشت.
FAOSTAT
کمک به دانشمندان در تولید غذای بیشتر برای جهان
پایش تامین غذای جهان مواردی از قبیل بررسی دادههای کشاورزی، استفاده از زمین، ماهیگیری، جنگلداری، کمکهای غذایی، تغذیه و رشد جمعیت را شامل میشود. برای در اختیار داشتن اطلاعات دقیق و مفید، محققان در سازمان غذا و کشاورزی سازمان ملل (FAO)، بانک اطلاعاتی به نام فائواستات (FAOSTAT) ایجاد کردهاند که شامل بیش از یک میلیون داده آماری مربوط به پنجاه سال اخیر 245 کشور جهان و سرزمینهای مختلف است. به عنوان مثال، با استفاده از فائواستات، محققان میتوانند به راحتی دریابند که در سال 2000 کالری دریافتی روزانه انسانها 249 واحد بیش از بیست سال پیش از آن یعنی 1980 بوده است؛ یا 70 درصد آب مصرفی بشر صرف کشاورزی میشود؛ یا اینکه تقریبا 2000 راس بز و گوسفند در سراسر جهان وجود دارند؛ و با اینکه در کره زمین به اندازه کافی غذا برای تمامی انسانها تولید میشود، اما تقریبا 13 درصد آنها از دریافت غذا به میزان مناسب محرومند. از سال 2010، فائو دادههای فائواستات را به صورت رایگان در اختیار همگان گذاشته است. با اینکار، تعداد کاربران این بانک اطلاعاتی از 400 به 500/11 عدد رسیده است. در بین این کاربران، دولتها و سازمانهای غیردولتی (NGO) وجود دارند که به فکر پیدا کردن راههای بهتر برای سیر کردن مردم کره زمین هستند. در آخرین مطالعات انجام شده، وزارت کشاورزی چین با استفاده از اطلاعات فائو، میزان استفاده از زمینهای کشاورزی در 19 کشور جهان را با نرخ مواد غذایی ضروری تولید شده توسط آنها مقایسه کرد و به نتایج جالبی دست یافت: زمینهای کشاورزی چین مازاد نیروی انسانی دارند. به عبارت دیگر، افراد بیشتری روی زمینهای کشاورزی در چین کار میکنند و اگر این افراد به شهرها کوچانده شوند، میتوان از نیروی انسانی استفاده مناسبتری کرد.
پروژه ژنوگرافیک
دنبال کردن تاریخ بشر از طریق دیانای
بهترین منبع تحقیق در خصوص مهاجرت انسانهای نخستین نه استخوانهای بجا مانده از آن زمان و نه مصنوعات ساخت بشر اولیه، بلکه دیانای انسانهای امروزی است. در سال 2005، به منظور در دسترس قرار دادن این اطلاعات، انجمن جغرافیای ملی (National Geographic Society) و IBM پروژه ژنوگرافیک را به صورت مشترک آغاز کردند. این پروژه کیتهای مجموعه دیانای را به افراد میفروشد و تحلیلی از پیشینیان آنها ارائه میکند. از افراد خواسته میشود در صورت تمایل نتیجه حاصله را در یک بانک اطلاعاتی مخصوص وارد نمایند که اطلاعات دیانای افراد بومی گردآوری شده توسط نسل شناسان دیگر از 10 آزمایشگاه دیگر را نگهداری میکند. اطلاعات مذکور بدون نام و مشخصات فردی افراد در بانک اطلاعاتی ذخیره میشود. با داده کاوی 000/420 پروفایل ذخیره شده در بانک اطلاعاتی، دانشمندان میتوانند در خصوص تکامل ژنتیکی جمعیتهای بشری و نسلها اطلاعاتی به دست بیاورند و بر اساس آن رد پای این تکامل را در انسانهای ماقبل تاریخ نیز دنبال نمایند. در سال 2008، با مطالعه اجداد مادری 624 ژنوم از آفریقا، محققان پروژه ژنوگرافیک دریافتند که اگرچه تمامی انسانها در دیانای موجود در انسان 000/000/200 سال پیش (زن میتوکوندریال) مشترک هستند، انسانهای نخستین مرتبا به گروههای مختلفی تقسیم شدهاند. گروههای کوچکی از انسانها سالها پیش در گروههای جداگانهای و به صورت مجزا زندگی و تکامل یافتهاند و سرانجام در عصر حجر مجددا در یک اجتماع یکسان متحد شدهاند.
پنل بین المللی مرکز توزیع دادههای تغییرات آب و هوایی
پیش بینی سرنوشت سیاره زمین
پیش از آنکه پنل بین المللی تغییرات آب و هوایی مرکز توزیع داده (Data Distribution Centre یا DDC) خود را در سال 1998 راه اندازی کند، محققانی که به اطلاعات و آمار تغییرات آب و هوا نیاز داشتند ناچار بودند آنها را از تعدادی از دانشمندان و محققان که در مدلسازی دادههای آماری مربوطه خبره بودند به دست بیاورند. به تدریج اطلاعات درخواستی از مدلسازان بیشتر و بیشتر شد، درخواستها روی هم تلمبار گردید و تحلیل و استخراج دادهها به کاری طاقتفرسا و کسل کننده تبدیل شد. بدتر از همه اینکه هر بار کارشناسان مدلسازی فرضیات متفاوتی برای قالببندی دادهها در محاسبات خود لحاظ میکردند و این کار مقایسه دادههای به دست آمده از گزارشهای مختلف را مشکلتر میکرد. اما امروزه، DDC به عنوان منبع یگانه اطلاعات در خصوص آب و هوای کره زمین خدمترسانی میکند. تحلیلگران DDC دادههای به دست آمده از مدلهای متفاوت را پیش از وارد کردن به بانک اطلاعاتی، به قالبهای سازگار و قابل استفاده تبدیل میکنند. با این امکان، به عنوان مثال اگر دانشمندی بخواهد تاثیرات گرمایش جهانی را روی تولید ذرت در چین مطالعه کند، میتواند از مجموعه دادههای موجود که بر اساس 49 مدل آماری مختلف ایجاد شده است استفاده نماید و اطلاعات خروجی را با قالب مناسب دریافت نماید.
MD:PRO
متمرکزسازی دژ ضد برنامههای مخرب
پروژه MD:PRO با داشتن کاتالوگی از بیش از 15 میلیون برنامه کامپیوتری مخرب، تبدیل به مرکز کنترل بیماریهای امنیت سایبری در سرتاسر جهان شده است. خدمات امنیتی Frame4 که در سال 2006 در هلند راه اندازی شد، پایگاه دادهای را به عنوان مرجع کارشناسان و خبرگان امنیت ایجاد کرد که بتوانند در صورت نیاز یک برنامه مخرب خاص را برای تحلیل و بررسی بیشتر و تولید برنامههای دفاعی مناسب دریافت کنند. تحلیلگران Frame4 نمونهها را با استفاده از کامپوترهایی به نام کوزه عسل (honeypot- یک شگرد متداول امنیتی برای به دام انداختن یا منحرف کردن برنامههای مخرب. کامپیوتری که نقش کوزه عسل را ایفا میکند، حاوی اطلاعات مهم حقیقی نیست و صرفا باعث جلب توجه هکرها، ویروسها و سایر برنامههای مخرب میشود.) این کامپیوترها از لحاظ فنی و مالی مورد حمایت شرکتهای تولید کننده نرمافزارهای امنیتی و آنتی ویروس هستند. تحلیلگران میتوانند در عوض کمکهای خود از طریق سایت FTP پروژه MD:PRO نمونه تهدیدات امنیتی و بدافزارها را دریافت نمایند. در کنار برخی از این برنامهها، کد منبع آنها نیز وجود دارد. به منظور جلوگیری از سوء استفاده از اطلاعات سایت، Frame4 اطلاعات کاربران خود را ذخیره میکند. از زمان تقویت موتور پردازشگر MD:PRO از سال گذشته میلادی، حجم این بانک اطلاعاتی رشدی در حدود یک میلیون نمونه در ماه داشته است.
دوستیابی در OKCUPID
کشف نحوه ایجاد روابط بین انسانها
در دو سال گذشته چهار فارغ التحصیل دانشگاه هاروارد که سایت دوستیابی OkCupid را تاسیس کردهاند، به مطالعه نحوه دوستیابی کاربران این سایت پرداختهاند تا بتوانند رفتار انسان را در خصوص دوستیابی و ارتباط با جنس مخالف بیشتر بشناسند و نتایج آنرا منتشر نمایند. این سایت هفت میلیون کاربر فعال دارد، که هر یک از آنها به طور میانگین به 200 سوال شخصی پاسخ میدهد. در فرایند ارسال پیام، چت کردن، مبادل عکس و جستجوی سایرین، میلیاردها داده تولید میشود که شرکت آنها را به منظور کشف نکات حساس و مهم میکاود. بسیاری از نتایج به دست آمده در وبلاگ OkTrends منتشر شده است که برخی از آنها نیز کمی تامل برانگیز است: مثلا زنان سیاه پوست بیشتر از سایر گروهها به پیامهای ارسال شده پاسخ میدهند، و البته کمتر از بقیه نژادها پاسخ دریافت میکنند؛ حتی از سوی مردان سیاه پوست. در مقایسه، مردان سیاه پوست بیشتر از تمامی گروههای جنسی و نژادی پاسخ دریافت میکنند و البته 20 درصد کمتر از مردان غیرسفید پوست به پیامهای دریافتی جواب میدهند. سایر یافتهها تا این حد عجیب نیستند. نتایج بررسی این گروه نشان میدهد که برای جلب توجه در برخورد اول رعایت نکاتی ساده میتواند شانس شما را افزایش دهد: اگر مرد هستید، متواضع باشید و سعی نکنید که جلب توجه کنید. اگر زن هستید، تصاویر با لباس یقهباز از خودتان روی سایت قرار دهید.
پایگاه داده نقشهبرداری دیجیتالی آسمان Sloan
ایجاد نقشه کیهان
در سال 1998، ستاره شناسان به کمک تلسکوپ 5/2 متری اسلون (Sloan) در نیومکزیکو شروع به ایجاد نقشه آسمان و بارگذاری تصاویر به دست آمده در یک پایگاه داده به نام پایگاه داده نقشهبرداری دیجیتالی آسمان اسلون (Sloan Digital Sky Survey Database یا SDSS) کردند. از آن پس، ستاره شناسان با استفاده از بیش از 100 ترابایت فضای ذخیره سازی موجود در این پایگاه داده، نقشه و مشخصات بیش از نیم میلیارد ستاره، کهکشان، سیارک و نواختر را در آن ذخیره کرده و نقشهای سه بعدی از فضای خارج از کهکشان ما ایجاد کردهاند. با این کار دانشمندان قادرند به مطالعه ساختار جهان بپردازند. در سال 2010، دانشمندان موفق شدند پاسخ این سوال که چرا کوتولهها ردی از فلز در اتمسفر خود دارند را با استفاده از دادههای SDSS بیابند. با مقایسه نقشههای هزاران کوتوله سفید تازه شناسایی شده در SDSS و سایر ستارهها، دانشمندان متوجه شدند که احتمالا غبار مشاهده شده، تکهها و خاک و شن باقیمانده از سیارات و موادیست که زمانی شامل آب هم بودهاند. از آنجایی که راه شیری شامل تعداد بسیار زیادی از کوتولههای سفید است، دانشمندان چنین استدلال میکنند که احتمالا تعداد سیارههای آبی و سنگی بیش از آنچیزیست که در گذشته تصور میشد. به همین دلیل، احتمال وجود حیات فرازمینی در کهکشان ما بیش از پیشبینیهای گذشته است.
ماشین Wayback
بایگانی دایمی وب
هدف ماشین Wayback کپی کردن و ذخیره سازی اینترنت است. از زمانی که بایگانی اینترنت (Internet Archive) پایگاه داده خود را در 15 سال پیش ایجاد کرد، نرمافزارهای مخصوص کاوش و شاخصگذاری اینترنت (crawler) نزدیک به 180 میلیارد صفحه وب را از بیش از 200 میلیون وبسایت ثبت کردهاند. اکنون، با اندازهای بالغ بر 4 پتابایت (هر پتابایت 1024 ترابایت است) و رشد تقریبی ماهیانه 35 تا 40 ترابایت، ماشین Wayback بزرگترین بایگانی وب موجود در جهان است. میتوانید با مراجعه به web.archive.org، آدرس (URL) یک سایت را در صفحه اول سایت وارد کنید. این آدرس میتواند مثلا یک وبلاگ قدیمی باشد که سالهاست بروز نشده است. Wayback به شما تقویمی از تاریخهایی که محتوای سایت مورد نظر در آنها ضبط شده نشان میدهد. سپس میتوانید با مراجعه به تاریخ مورد نظر، محتوای سایت را در همان روز مشاهده نمایید. حتی ساعت ضبط محتوای صفحه نیز با قرار دادن نشانگر ماوس روی تاریخ مورد نظر از تقویم مذکور قابل مشاهده است. استفاده از این ماشین رایگان است. بنابراین، هر محقق یا فرد کنجکاوی میتواند از آن برای بررسی روند تحولات وب و دادههای موجود روی آن در گذر زمان استفاده نماید. به عنوان مثال، محققان کتابخانه کنگره آمریکا از Wayback برای ایجاد نمایشگاهی از محتوای برخی سایتها در روز حادثه 11 سپتامبر و سه ماه پس از آن استفاده کردند.
WORLDCAT
ارتباط تمامی کتابخانههای جهان
از زمانی که اولین مرکز غیرانتفاعی کتابخانه آنلاین، WorldCat را در 40 سال پیش ایجاد کرد، کتابداران سراسر جهان اطلاعات فهرست بیش از 75/1 میلیارد کتاب را از 000/72 کتابخانه در 170 کشور در آن وارد کردهاند. کتابداران از این بانک اطلاعاتی برای دسترسی به اطلاعات کتب استفاده میکنند. اعضای کتابخانهها و کسانی که تمایل به امانت گرفتن کتاب دارند میتوانند از طریق برنامه موبایل WorldCat به دنبال کتاب، فیلم، نقشه و موسیقی در کتابخانههای نزدیک به خود بگردندمحققان، میتوانند با دادهکاوی اطلاعات موجود در این بانک اطلاعاتی به بررسی روند تغییرات فرهنگی و تاریخی بپردازند و حتی تغییرات آینده را پیش بینی نمایند. مثلا، یکی از اقتصاددانان دانشگاه تورنتو با بررسی اطلاعات WorldCat متوجه شد که فراز و نشیب در تعداد کتابهای جدید حوزه فناوری میتواند با فاصله زمانی تقریبی یک سال، به ترتیب نشاندهنده رونق و رکود اقتصادی باشد.
********
یک بانک اطلاعاتی از بانکهای اطلاعاتیدر سال 1989 مهندس انگلیسی، تیم برنرز لی با استفاده از هایپرتکست و ارتباط دادن مستندات روی اینترنت وب را اختراع کرد. اکنون وی قصد دارد بزرگترین و مفیدترین بانک اطلاعاتی جهان را بسازد: Linked Data. همانطور که وب مستندات HTML را به یکدیگر وصل میکند، Linked Data اطلاعات یافت شده در بانکهای اطلاعاتی باز (قابل دسترس عموم) را روی بستر وب به یکدیگر متصل میکند. اما همانطور که جستجوی وب میتواند شما را به یه فایل صفحه گسترده اکسل برساند که حاوی اطلاعات مورد نظرتان باشد، جستجوی این شبکه عظیم از اطلاعات و بانکهای اطلاعاتی میتواند کامپیوتر شما را به داده کاوی شبکهای از بانکهای اطلاعاتی قابل فهم برای ماشین هدایت کند و تمامی اطلاعات مرتبط با جستجوی شما را که در آن یافت شود به شما بازگرداند. برنرز لی مثالی از تحقیقات آلزایمر میزند: جستجوی گوگل به دنبال پروتئینهای موثر در انتقال سیگنال عصبی و نرونهای هرمی نقریبا بینتیجه است؛ در صورتیکه جستجوی Linked Data که بانکهای اطلاعاتی حاوی دادههای وراثتی را به بانکهای اطلاعاتی مربوط به رفتار پروتئین متصل میکند و به شما نام 32 پروتئین را بازمیگرداند که برای بررسی و تحقیق بیشتر مناسبند. در پاییز سال گذشته برنامهنویسان در کنسرسیوم وب (World Wide Web Consortium) 203 بانک اطلاعاتی را با استفاده از 395 میلیون ارتباط به یکدیگر متصل کردند. هدف نهایی، توسعه Linked Data تا جایی است که تمامی دادههای تولید شده در جهان به صورت بلادرنگ (realtime) به یکدیگر متصل باشند. برای اطلاعات بیشتر در ارتباط با این پروژه میتوانید به سایت linkeddata.org مراجعه نمایید. |
********
منبع: پاپیولار ساینس