خلاصه
سامانههای مبتنی بر دیسک حالت جامد (SSD) شرکت پردازش و ذخیره سازی سریع داده (پرسا)، در چند سال اخیر مورد اقبال عموم قرار گرفته و برای کاربردهایی که نیاز به کارآیی بالا و تاخیرپایین در درخواستهای IO بودهاند به جای سامانههای مبتنی بر HDD مورد استفاده قرار گرفته است. اما، قیمت بالای دیسک حالت جامد SSD در مقایسه با دیسک سخت (HDD)، خرید سامانههای تمام SSD برای برخی مشتریان، مشکل بوده است. در این راستا، شرکت پرسا، پس از انجام تحقیق و توسعه در زمینه کاهش هزینههای ذخیرهسازی داده، طراحی قابلیت جدیدی به نام «کاهش دادهی پیشرفته» یا «Advanced Data Reduction» را در دستور کار خود قرار داده و در حال حاضر، مراحل آخر پیادهسازی و تست برروی محصولات سری SAB-AF را میگذراند.
قابلیت «کاهش دادهی پیشرفته» محصولات SAB-AF شرکت پرسا این امکان را فراهم میکند که به صورت «برخط» درخواستهای IO دریافت، محتوای آنها را در چند لایه تحلیل و الگوهای تکراری داده را حذف کند. این روش برپایهی دو تکنیک با نام deduplication و compression قرار دارد. در مرحله deduplication، بلوکهای دادهی دریافتی با بلوکهای داده که از قبل در سامانه ذخیره شده است مقایسه میشود و در صورت یافتن محتوای یکسان (در آدرسهای گوناگون)، دادهی دریافتی در سامانه نوشته نمیشود و فقط یک اشارهگر (چندبایتی) به دادهی موجود درسامانه به جای یک بلوک (چند کیلوبایتی) نوشته میشود. در مواردی که محتوا عینا در سامانه وجود ندارد، الگوهای تکراری داخل بلوک مربوطه تحلیل میشود و داده به صورت خلاصهتر و فشرده تولید میشود که با حجم کم در سامانه ذخیره شود. با ترکیب این دو تکنیک و انتخاب پارامترهای مناسب طراحی، قابلیت کاهش دادهی پیشرفته محصولات SAB-AF میتواند در کاربردهای واقعی، 50% تا90% حجم دادهها را کم (فضای موثر 2 تا 10 برابر) کرده و هزینهی سامانه را به شدت کاهش دهد. به طور مثال، اگر سامانهی خریداری شده دارای 50 ترابایت فضای ذخیرهسازی خام باشد، با فعالسازی قابلیت جدید محصول، با کاهش حجم میانگین 75%، در عمل 200 ترابایت قابل استفاده میشود. این افزایش حجم بدون خریداری دیسکهای بیشتر صورت میگیرد که همین سبب میشود هزینهی تمام شده سامانه برای مشتریان بسیار کم و مناسبتر شود.
* لازم به ذکر است، دراینجا هیچ دادهای از بین نمیرود و فقط نحوه ذخیرهسازی آن داده بهینه میشود. به همین دلیل، درهنگام درخواست سرور میزبان، دادهی مذکور قابلیت ساخت و نمایش به فرم اولیه است.
شکل 1: تصویر ساده شدهی تاثیر deduplication و compression موجود در قابلیت «Advanced Data Reduction» محصولات سری SAB-AF شرکت پرسا
تاثیر قابلیت Advanced Data Reductionبرروی چند کاربرد واقعی
جدول 1 نتیجهی چند تست کاربردی در زمان فعال بودن Advanced Data Reduction در محصول SAB-AF شرکت پرسا را نشان میدهد.
** تستهای جدول 1 نشان میدهد که درکاربری مهم به ویژه در سامانههای دارای ماشینهای مجازی، میزان کاهش داده بسیار بالا و مفید خواهد بود. به طور مثال، دادههای سرور FTP تیمهای توسعهدهندهی نرمافزار که به طور طبیعی ورژنهای مختلف از یک نرمافزار پایه را نگهداری میکنند، حدود 73% کاهش حجم داده (معادل 3.7x افزایش فضای موثر قابل استفاده) به وسیله Advanced Data Reduction فراهم میشود. در کاربریهای ذخیرهسازی لاگهای سامانههای مختلف نیز، حدود 80% کاهش داده بدست میآید. در کاربری بسیار رایج استفاده از ماشینهای مجازی، کاهش داده بسیار بارز است. این کاهش داده به دلیل شباهتهای زیادی است که سیستم عامل و نرمافزارهای پایه در ماشینهای مجازی مختلف دارا هستند. در تستهای ما، یک ماشین مجازی به تنهایی حدودا 50% قابلیت کاهش داده دارد. هر چه تعداد ماشینهای مجازی بیشتر شود، میزان کاهش داده بسیار بهتر عمل میکند و به راحتی بالای 75% کاهش داده نیز ممکن میشود.
درصد کاهش حجم داده |
مدت زمان تست |
نوع تست |
شماره تست |
73% |
2 ماه |
FTP سرور داخلی شرکت جهت تولید نرم افزار با حجم بالای 100 گیگابایت |
1 |
80% |
2 ماه |
یک لاگ سرور (جمع آوری لاگ های 15 سامانه ذخیره سازی و سوییچ) |
2 |
45% |
بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی |
یک ماشین مجازی با سیستم عامل centos 8 |
3 |
48% |
بلافاصله پس از نصب سیستم عامل ها در ماشین های مجازی |
سه ماشین مجازی با Centos8، Windows server و vCenter |
4 |
63% |
بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی |
دو ماشین مجازی با سیستم عامل CentOS 8 |
5 |
** برای تستهای مذکور، سامانهی SAN storage به یک یا چند سرور به عنوان نودهای پردازشی متصل است. درتستهای 1 و 2، سامانهی ذخیرهسازی از طریق پورت Ethernet و به واسطهی سوییچ به تعدادی سرور متصل بوده است که دادههای تغییریافته در نودهای مذکور را دریافت میکرده است. مثلا در تست 1، بلوکهای تغییریافتهی یک FTP سرور هر 30 دقیقه به سامانهی ذخیرهسازی ارسال شده است. در تست های 3و4و5 ، سامانه ذخیرهسازی از طریق کابل FC به یک نود که نرمافزار VMware ESXi را اجرا میکرد متصل بوده است. در سمت سامانهی ذخیرهسازی، آرایهای از SSDهای 2 ترابایتی SM863a سامسونگ و پیکربندی RAID-1 و RAID-5 استفاده شده است. در تمامی تستها، قابلیت Advanced Data Reduction در سامانهی ذخیرهسازی فعال بوده است.
کاربردهای کلی از تکنیکهای کاهش داده (تحلیل کارهای تجاری-تحقیقاتی بینالمللی)
جدول 2 میزان کاهش داده (ناشی از deduplication و compression) در کاربردهای مختلف تست شده در شرکتهای مختلف و مراکز دادهی بینالمللی را نشان میدهد. همان طور که دیده میشود، دادههای حوزهی HPC (هواشناسی، عکسهای ماهوارهای و...) با وجود حجمهای بسیار بالا معمولا قابلیت کاهش دادهی چندانی ندارد و حداکثر 50% کاهش حجم وجود دارد. دادههای موجود در پایگاههای داده معمولا کاهش داده کمی بیشتر است. کاربردهای دادههای ترکیبی کاربرهای مختلف در cloud (شامل فایلهای آفیس، عکس، موسیقی، نرمافزار و...) حدود 60% قابلیت کاهش داده دارد. بهترین کاربردهای کاهش داده مربوط به استفاده در محیطهای دارای ماشینهای مجازی فراوان مانند VDI است. در این کاربردها تا 90% کاهش داده قابل انجام است.
***لازم به ذکر است که عملیات کاهش داده کاملا به محتوای دادهها وابسته است. به همین دلیل یک اپلیکیشن در محیطهای مختلف و نحوهی استفادهی متفاوت درصد کاهش داده متفاوتی ایجاد میکند.
درصد کاهش داده |
نوع داده های مورد بررسی |
محل ذخیره سازی داده ها یا گروه تحلیل کننده |
30%-50% |
دادههای HPC (هواشناسی، عکسهای ماهوارهای و ....) ]1و2[ |
چند مرکز داده در اتحادیه اروپا |
50%-80% |
پایگاههای داده SQL/Oracle ]5[ |
شرکت PureStorage |
~60% |
فایلهای ترکیبی در cloud یا سامانههای داخلی شرکتی ]3و4[ |
چند مرکز داده شرکت Microsoft و دادههای داخلی شرکت IBM |
90% |
زیرساخت مجازی دسکتاپ ( VDI) ]5[ |
شرکت PureStorage |
مراجع: