قابلیت Advanced Data Reduction

شرکت پردازش و ذخیره‌سازی سریع داده

مشاهده: 1590
نویسنده: محمدامین اژدری
تاریخ ایجاد: 1403/05/01
تاریخ آخرین ویرایش: 1404/09/15
 
قابلیت Advanced Data Reduction

قابلیت Advanced Data Reduction

قابلیت "کاهش داده‌ی پیشرفته" این امکان را فراهم می‌کند که به‌صورت "برخط" درخواست‌های IO دریافت، محتوای آن‌ها را در چندلایه تحلیل و الگوهای تکراری داده را حذف کند.

سامانه‌های مبتنی بر دیسک حالت جامد (SSD) شرکت HPDS در چند سال اخیر مورد اقبال عموم قرارگرفته و برای کاربردهایی که نیاز به کارایی بالا و تأخیر پایین در درخواست‌های IO بوده‌اند به‌جای سامانه‌های مبتنی بر HDD مورداستفاده قرارگرفته است. اما، قیمت بالای دیسک حالت جامد SSD در مقایسه با دیسک سخت (HDD)، خرید سامانه‌های تمام SSD برای برخی مشتریان، مشکل بوده است. در این راستا، شرکت HPDS، پس از انجام تحقیق و توسعه در زمینه کاهش هزینه‌های ذخیره‌سازی داده، طراحی قابلیت جدیدی به نام "کاهش داده‌ی پیشرفته" یا "Advanced Data Reduction" را در دستور کار خود قرار داده است.

قابلیت "کاهش داده‌ی پیشرفته" این امکان را فراهم می‌کند که به‌صورت "برخط" درخواست‌های IO دریافت، محتوای آن‌ها را در چندلایه تحلیل و الگوهای تکراری داده را حذف کند. این روش بر پایه‌ی دو تکنیک با نام deduplication و compression قرار دارد. در مرحله deduplication، بلوک‌های داده‌ی دریافتی با بلوک‌های داده که از قبل در سامانه ذخیره‌شده است مقایسه می‌شود و در صورت یافتن محتوای یکسان (در آدرس‌های گوناگون)، داده‌ی دریافتی در سامانه نوشته نمی‌شود و فقط یک اشاره‌گر (چند بایتی) به داده‌ی موجود در سامانه به‌جای یک بلوک (چند کیلوبایتی) نوشته می‌شود. در مواردی که محتوا عیناً در سامانه وجود ندارد، الگوهای تکراری داخل بلوک مربوطه تحلیل می‌شود و داده به‌صورت خلاصه‌تر و فشرده تولید می‌شود که با حجم کم در سامانه ذخیره شود. با ترکیب این دو تکنیک و انتخاب پارامترهای مناسب طراحی، قابلیت کاهش داده‌ی پیشرفته می‌تواند در کاربردهای واقعی، 50%تا 90% حجم داده‌ها را کم (فضای مؤثر 2-10 برابر) کرده و هزینه‌ی سامانه را به‌شدت کاهش دهد. به‌طور مثال، اگر سامانه‌ی خریداری‌شده دارای 50 ترابایت فضای ذخیره‌سازی خام باشد، با فعال‌سازی قابلیت جدید محصول،   با کاهش حجم میانگین 75%، در عمل 200 ترابایت قابل‌استفاده می‌شود. این افزایش حجم بدون خریداری دیسک‌های بیشتر صورت می‌گیرد که همین سبب می‌شود هزینه‌ی تمام‌شده سامانه برای مشتریان بسیار کم و مناسب‌تر شود.

* لازم به ذکر است، در اینجا هیچ داده‌ای از بین نمی‌رود و فقط نحوه ذخیره‌سازی آن داده بهینه می‌شود. به همین دلیل، در هنگام درخواست سرور میزبان، داده‌ی مذکور قابلیت ساخت و نمایش به فرم اولیه است.

قابلیت Advanced Data Reduction

شکل 1: تصویر ساده‌شده‌ی تأثیر deduplication و compression موجود در قابلیت "Advanced Data Reduction" محصولات سری SAB-AF شرکت HPDS

تأثیر قابلیت  Advanced Data Reductionبر روی چند کاربرد واقعی

جدول 1 نتیجه‌ی چند تست کاربردی در زمان فعال بودن Advanced Data Reduction در prototype مبتنی بر محصولات شرکت HPDS را نشان می‌دهد. ** تست‌های جدول 1 نشان می‌دهد که در سامانه‌های ماشین‌های مجازی زیادی وجود دارد میزان کاهش داده بسیار بالا و مفید خواهد بود. این کاهش داده به دلیل شباهت‌های زیادی است که سیستم‌عامل و نرم‌افزارهای پایه در ماشین‌های مجازی مختلف دارا هستند. در تست‌های ما، یک ماشین مجازی به‌تنهایی حدوداً 50% قابلیت کاهش داده دارد. هر چه تعداد ماشین‌های مجازی بیشتر شود، میزان کاهش داده بسیار بهتر عمل می‌کند و به‌راحتی تا حدود 75% کاهش داده ممکن می‌شود.

درصد کاهش حجم داده

مدت‌زمان تست

نوع تست

شماره تست

73%

2 ماه

FTP سرور داخلی شرکت جهت تولید نرم‌افزار با حجم بالای 100 گیگابایت

1

80%

2 ماه

یک لاگ سرور (جمع‌آوری لاگ‌های 15 سامانه ذخیره‌سازی و سوییچ)

2

45%

بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی

یک ماشین مجازی با سیستم‌عامل centos 8

3

48%

بلافاصله پس از نصب سیستم عامل‌ها در ماشین‌های مجازی

سه ماشین مجازی با Centos8، Windows server و vCenter

4

63%

بلافاصله پس از نصب سیستم عامل مذکور در ماشین مجازی

دو ماشین مجازی با سیستم‌عامل CentOS 8

5

 

 

 

 

 

 

 

 

 

 

 

 

** برای تست‌های مذکور، سامانه‌ی SAN storage به یک یا چند سرور به‌عنوان نود‌های پردازشی متصل است. در تست‌های 1 و2، سامانه‌ی ذخیره‌سازی از طریق پورت Ethernet و به واسطه‌ی سوییچ به تعدادی سرور متصل بوده است که داده‌های تغییریافته در نودهای مذکور را دریافت می‌کرده است. مثلاً در تست 1، بلوک‌های تغییریافته‌ی یک FTP سرور هر 30 دقیقه به سامانه‌ی ذخیره‌سازی ارسال‌شده است. در آزمودن‌های 3و4و5 ، سامانه ذخیره‌سازی از طریق کابل FC به یک نود که نرم‌افزار VMware ESXi را اجرا می‌کرد متصل بوده است. در سمت سامانه‌ی ذخیره‌سازی، آرایه‌ای از SSDهای 2 ترابایتی SM863a سامسونگ و پیکربندی RAID-1 و RAID-5 استفاده‌شده است. در تمامی تست‌ها، قابلیت Advanced Data Reduction در سامانه‌ی ذخیره‌سازی فعال بوده است.

 

کاربردهای کلی از تکنیک‌های کاهش داده (تحلیل کارهای تجاری-تحقیقاتی بین المللی)

جدول 2 میزان کاهش داده (ناشی از deduplication و compression) در کاربردهای مختلف تست‌شده در شرکت‌های مختلف و مراکز داده‌ی بین‌المللی را نشان می‌دهد. همان‌طور که دیده می‌شود، داده‌های حوزه‌ی HPC (هواشناسی، عکس‌های ماهواره‌ای و...) باوجود حجم‌های بسیار بالا معمولاً قابلیت کاهش داده‌ی چندانی ندارد و حداکثر 50% کاهش حجم وجود دارد. داده‌های موجود در پایگاه‌های داده معمولاً کاهش داده کمی بیشتر است. کاربردهای داده‌های ترکیبی کاربرهای مختلف در cloud (شامل فایل‌های آفیس، عکس، موسیقی، نرم‌افزار و...) حدود 60% قابلیت کاهش داده دارد. بهترین کاربردهای کاهش داده مربوط به استفاده در محیط‌های دارای ماشین‌های مجازی فراوان مانند VDI است. در این کاربردها تا 90%  کاهش داده قابل انجام است.

***لازم به ذکر است که عملیات کاهش داده کاملاً به محتوای داده‌ها وابسته است. به همین دلیل یک اپلیکیشن در محیط‌های مختلف و نحوه‌ی استفاده‌ی متفاوت درصد کاهش داده متفاوتی ایجاد می‌کند/

درصد کاهش داده

نوع داده‌های موردبررسی

محل ذخیره‌سازی داده‌ها یا گروه تحلیل‌کننده

~50%

داده‌های HPC (هواشناسی، عکس‌های ماهواره‌ای و ....)  ]1و2[

چند مرکز داده در اتحادیه اروپا

50%-80%

پایگاه‌های داده SQL/Oracle  ]5[

شرکت PureStorage

~60%

فایل‌های ترکیبی در cloud یا سامانه‌های داخلی شرکتی ]3و4[

چند مرکز داده شرکت Microsoft و داده‌های داخلی شرکت IBM

90%

زیرساخت مجازی دسکتاپ ( VDI)   ]5[

شرکت PureStorage

 

 

 

 

 

 

 

 

 

مراجع:

 [1] A study on data deduplication in HPC storage systems, D Meister, et al,  SC 2012

[2] Data Reduction analysis for Climate Data Sets: S. Liu et. al, International journal of parallel programming, 2015

[3] Primary Data Deduplication –Large Scale Study and System Design: A. El-shimi et. al, Usenix ATC 2011

[4]Insights for data reduction in primary storage: a practical analysis: M. Lu et. al, Systor 2012

 [5] https://blog.purestorage.com/modeling-io-size-mixes-with-vdbench/, PureStorage blog, published in 2015, accessed 2020

 

 

Copyright © 2025 HPDS Co

 
×
 
نظارت دوربینی و نظارت تصویری


بررسی Ubiquiti SFP Wizard


سن استوریج (SAN Storage) چیست؟


دستیار محاسبه گر

برای محاسبه فضای موردنیاز جهت نگهداشت تصاویر دوربین‌های مدار بسته کلیک کنید.

نس استوریج (NAS Storage) چیست؟


تازه ها