قابلیت Advanced Data Reduction
قابلیت "کاهش دادهی پیشرفته" این امکان را فراهم میکند که بهصورت "برخط" درخواستهای IO دریافت، محتوای آنها را در چندلایه تحلیل و الگوهای تکراری داده را حذف کند.
سامانههای مبتنی بر دیسک حالت جامد (SSD) شرکت HPDS در چند سال اخیر مورد اقبال عموم قرارگرفته و برای کاربردهایی که نیاز به کارایی بالا و تأخیر پایین در درخواستهای IO بودهاند بهجای سامانههای مبتنی بر HDD مورداستفاده قرارگرفته است. اما، قیمت بالای دیسک حالت جامد SSD در مقایسه با دیسک سخت (HDD)، خرید سامانههای تمام SSD برای برخی مشتریان، مشکل بوده است. در این راستا، شرکت HPDS، پس از انجام تحقیق و توسعه در زمینه کاهش هزینههای ذخیرهسازی داده، طراحی قابلیت جدیدی به نام "کاهش دادهی پیشرفته" یا "Advanced Data Reduction" را در دستور کار خود قرار داده است.
قابلیت "کاهش دادهی پیشرفته" این امکان را فراهم میکند که بهصورت "برخط" درخواستهای IO دریافت، محتوای آنها را در چندلایه تحلیل و الگوهای تکراری داده را حذف کند. این روش بر پایهی دو تکنیک با نام deduplication و compression قرار دارد. در مرحله deduplication، بلوکهای دادهی دریافتی با بلوکهای داده که از قبل در سامانه ذخیرهشده است مقایسه میشود و در صورت یافتن محتوای یکسان (در آدرسهای گوناگون)، دادهی دریافتی در سامانه نوشته نمیشود و فقط یک اشارهگر (چند بایتی) به دادهی موجود در سامانه بهجای یک بلوک (چند کیلوبایتی) نوشته میشود. در مواردی که محتوا عیناً در سامانه وجود ندارد، الگوهای تکراری داخل بلوک مربوطه تحلیل میشود و داده بهصورت خلاصهتر و فشرده تولید میشود که با حجم کم در سامانه ذخیره شود. با ترکیب این دو تکنیک و انتخاب پارامترهای مناسب طراحی، قابلیت کاهش دادهی پیشرفته میتواند در کاربردهای واقعی، 50%تا 90% حجم دادهها را کم (فضای مؤثر 2-10 برابر) کرده و هزینهی سامانه را بهشدت کاهش دهد. بهطور مثال، اگر سامانهی خریداریشده دارای 50 ترابایت فضای ذخیرهسازی خام باشد، با فعالسازی قابلیت جدید محصول، با کاهش حجم میانگین 75%، در عمل 200 ترابایت قابلاستفاده میشود. این افزایش حجم بدون خریداری دیسکهای بیشتر صورت میگیرد که همین سبب میشود هزینهی تمامشده سامانه برای مشتریان بسیار کم و مناسبتر شود.
* لازم به ذکر است، در اینجا هیچ دادهای از بین نمیرود و فقط نحوه ذخیرهسازی آن داده بهینه میشود. به همین دلیل، در هنگام درخواست سرور میزبان، دادهی مذکور قابلیت ساخت و نمایش به فرم اولیه است.

شکل 1: تصویر سادهشدهی تأثیر deduplication و compression موجود در قابلیت "Advanced Data Reduction" محصولات سری SAB-AF شرکت HPDS
تأثیر قابلیت Advanced Data Reductionبر روی چند کاربرد واقعی
جدول 1 نتیجهی چند تست کاربردی در زمان فعال بودن Advanced Data Reduction در prototype مبتنی بر محصولات شرکت HPDS را نشان میدهد. ** تستهای جدول 1 نشان میدهد که در سامانههای ماشینهای مجازی زیادی وجود دارد میزان کاهش داده بسیار بالا و مفید خواهد بود. این کاهش داده به دلیل شباهتهای زیادی است که سیستمعامل و نرمافزارهای پایه در ماشینهای مجازی مختلف دارا هستند. در تستهای ما، یک ماشین مجازی بهتنهایی حدوداً 50% قابلیت کاهش داده دارد. هر چه تعداد ماشینهای مجازی بیشتر شود، میزان کاهش داده بسیار بهتر عمل میکند و بهراحتی تا حدود 75% کاهش داده ممکن میشود.
|
درصد کاهش حجم داده |
مدتزمان تست |
نوع تست |
شماره تست |
|
73% |
2 ماه |
FTP سرور داخلی شرکت جهت تولید نرمافزار با حجم بالای 100 گیگابایت |
1 |
|
80% |
2 ماه |
یک لاگ سرور (جمعآوری لاگهای 15 سامانه ذخیرهسازی و سوییچ) |
2 |
|
45% |
بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی |
یک ماشین مجازی با سیستمعامل centos 8 |
3 |
|
48% |
بلافاصله پس از نصب سیستم عاملها در ماشینهای مجازی |
سه ماشین مجازی با Centos8، Windows server و vCenter |
4 |
|
63% |
بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی |
دو ماشین مجازی با سیستمعامل CentOS 8 |
5 |
** برای تستهای مذکور، سامانهی SAN storage به یک یا چند سرور بهعنوان نودهای پردازشی متصل است. در تستهای 1 و2، سامانهی ذخیرهسازی از طریق پورت Ethernet و به واسطهی سوییچ به تعدادی سرور متصل بوده است که دادههای تغییریافته در نودهای مذکور را دریافت میکرده است. مثلاً در تست 1، بلوکهای تغییریافتهی یک FTP سرور هر 30 دقیقه به سامانهی ذخیرهسازی ارسالشده است. در آزمودنهای 3و4و5 ، سامانه ذخیرهسازی از طریق کابل FC به یک نود که نرمافزار VMware ESXi را اجرا میکرد متصل بوده است. در سمت سامانهی ذخیرهسازی، آرایهای از SSDهای 2 ترابایتی SM863a سامسونگ و پیکربندی RAID-1 و RAID-5 استفادهشده است. در تمامی تستها، قابلیت Advanced Data Reduction در سامانهی ذخیرهسازی فعال بوده است.
کاربردهای کلی از تکنیکهای کاهش داده (تحلیل کارهای تجاری-تحقیقاتی بین المللی)
جدول 2 میزان کاهش داده (ناشی از deduplication و compression) در کاربردهای مختلف تستشده در شرکتهای مختلف و مراکز دادهی بینالمللی را نشان میدهد. همانطور که دیده میشود، دادههای حوزهی HPC (هواشناسی، عکسهای ماهوارهای و...) باوجود حجمهای بسیار بالا معمولاً قابلیت کاهش دادهی چندانی ندارد و حداکثر 50% کاهش حجم وجود دارد. دادههای موجود در پایگاههای داده معمولاً کاهش داده کمی بیشتر است. کاربردهای دادههای ترکیبی کاربرهای مختلف در cloud (شامل فایلهای آفیس، عکس، موسیقی، نرمافزار و...) حدود 60% قابلیت کاهش داده دارد. بهترین کاربردهای کاهش داده مربوط به استفاده در محیطهای دارای ماشینهای مجازی فراوان مانند VDI است. در این کاربردها تا 90% کاهش داده قابل انجام است.
***لازم به ذکر است که عملیات کاهش داده کاملاً به محتوای دادهها وابسته است. به همین دلیل یک اپلیکیشن در محیطهای مختلف و نحوهی استفادهی متفاوت درصد کاهش داده متفاوتی ایجاد میکند/
|
درصد کاهش داده |
نوع دادههای موردبررسی |
محل ذخیرهسازی دادهها یا گروه تحلیلکننده |
|
~50% |
دادههای HPC (هواشناسی، عکسهای ماهوارهای و ....) ]1و2[ |
چند مرکز داده در اتحادیه اروپا |
|
50%-80% |
پایگاههای داده SQL/Oracle ]5[ |
شرکت PureStorage |
|
~60% |
فایلهای ترکیبی در cloud یا سامانههای داخلی شرکتی ]3و4[ |
چند مرکز داده شرکت Microsoft و دادههای داخلی شرکت IBM |
|
90% |
زیرساخت مجازی دسکتاپ ( VDI) ]5[ |
شرکت PureStorage |
مراجع:
[1] A study on data deduplication in HPC storage systems, D Meister, et al, SC 2012
[2] Data Reduction analysis for Climate Data Sets: S. Liu et. al, International journal of parallel programming, 2015
[3] Primary Data Deduplication –Large Scale Study and System Design: A. El-shimi et. al, Usenix ATC 2011
[4]Insights for data reduction in primary storage: a practical analysis: M. Lu et. al, Systor 2012
[5] https://blog.purestorage.com/modeling-io-size-mixes-with-vdbench/, PureStorage blog, published in 2015, accessed 2020
