اخبار, تیپ درایو و استوریج

راهنمای عیب‌یابی درایو دیسک در استوریج MSA2062 – بخش دوم

در شماره قبل، با فرآیند عیب‌یابی درایو دیسک در استوریج HPE MSA 2062 آشنا شدیم و برخی از مشکلات رایج در ارتباط با آن‌را مورد بررسی قرار دادیم، در این مطلب قصد داریم، برخی دیگر از مشکلات رایج که متخصصان شبکه و ذخیره‌سازی با آن‌ها روبرو هستند را مورد بررسی قرار دهیم. همان‌گو.نه که پیش‌تر اشاره کردیم، عیب‌یابی درایو دیسک در استوریج HPE MSA 2062 اغلب شامل بررسی‌های فیزیکی، نرم‌افزاری و بررسی وضعیت ال‌ئی‌دی‌های درایو است. در شرایطی که عیب‌یابی درایو دیسک نکات خاص خود را دارد، اما یکسری نکات فنی وجود دارند که می‌توان با توجه به آن‌ها فرآیند عیب‌یابی را سریع‌تر انجام داد.

امکان خواندن بلوک داده وجود ندارد

اگر بلوک داده‌ای در درایو دیسک با مشکل مواجه شود و خواندن آن ناموفق باشد، نشان‌دهنده یک خطای جدی در داده‌ها است. این وضعیت معمولا به عنوان “خطای خواندن” یا “بیت‌های از دست رفته” شناخته می‌شود و می‌تواند به دلایل مختلفی رخ دهد. در چنین شرایطی یک رخداد 542 یا 543 ظاهر می‌شود. شایان ذکر است کد خطای 542 شامل اطلاعاتی همچون نام درایو، شماره سریال درایو، آدرس بلوک منطقی گروه دیسک انتخاب شده، گروه دیسک انتخاب شده، شماره اسلات انکلوژر و شماره انکلوژر است، در حالی که اطلاعات خطای 543 مواردی مثل نام درایو انتخاب شده، شماره سریال درایو، LBA درایو، نام گروه دیسک و شماره سریال دیسک را شامل می‌شود.

راه‌حل: این خطا ممکن است به دلیل خرابی فیزیکی در سطح دیسک (مانند خراشیدگی)، آسیب به بخش‌های مغناطیسی، یا مشکلات مربوط به هد خواندن/نوشتن درایو باشد. درایوهای دیسک دارای مکانیزم‌های تصحیح خطا هستند، اما اگر خطا از حد مشخصی فراتر رود، درایو قادر به بازیابی داده‌ها نخواهد بود و این خطا در سیستم ذخیره‌سازی ثبت می‌شود. البته، در این حالت، بلوک فوق برچسب‌گذاری شده و در آینده دیگر اطلاعاتی روی آن ثبت نخواهد شد.

به طور کلی، در سیستم‌های ذخیره‌سازی مانند MSA 2062 که از آرایه‌های رید استفاده می‌کنند، این خطا می‌تواند به طور خودکار مدیریت شود. اگر درایو شما در یک آرایه رید (مانند RAID 5 یا RAID 6) باشد، سیستم با استفاده از داده‌های توازن (parity) موجود در درایوهای دیگر، بلوک داده آسیب‌دیده را بازسازی می‌کند تا دسترسی به اطلاعات فراهم شود. با این حال، اگر تعداد خطاها زیاد باشد، ممکن است کل درایو معیوب اعلام شود.

برای رفع این مشکل، باید از طریق رابط مدیریتی سیستم، وضعیت درایو را بررسی و اقدامات لازم را انجام دهید. اگر خطاهای خواندن تکرار شوند، بهتر است درایو معیوب را با یک درایو جدید جایگزین کنید تا مانع از بروز مشکل از دست رفتن داده‌ها شوید. در نهایت، همواره داشتن برنامه پشتیبان‌گیری به‌روز از اطلاعات، بهترین راه برای مقابله با این نوع مشکلات است.

خرابی‌های متعدد درایو دیسک

یکی از خطرناک‌ترین وضعیت‌ها در استوریج HPE MSA 2062، خرابی همزمان چندین درایو دیسک است. در یک آرایه رید، خرابی یک درایو بسته به نوع ریدبندی اعمال شده (مانند RAID 6 یا RAID 5) مدیریت می‌شود و سیستم وارد حالت Degraded می‌شود. اما اگر درایو دیگری قبل از تکمیل فرآیند بازسازی خراب شود، آرایه به طور کامل از بین می‌رود و منجر به از دست رفتن داده‌ها (Data Loss) می‌شود. این مشکل دلایل مختلفی رخ می‌دهد و راه‌حل‌های خاص خود را دارند که از مهم‌ترین آن‌ها به موارد زیر باید اشاره کرد:

  • خرابی درایوهای یک Batch: ممکن است درایوهایی که همزمان تولید شده‌اند، عمر مفید مشابهی داشته باشند و در یک دوره زمانی کوتاه خراب شوند. 
  • مشکلات فریم‌ویر: یک باگ در فریم‌ویر درایوها یا کنترلر می‌تواند باعث خرابی‌های زنجیره‌ای شود. 
  • مشکلات محیطی: دمای بیش از حد بالا یا نوسانات برق می‌توانند به سلامت چندین درایو آسیب بزنند. 

برای جلوگیری از این وضعیت، بهتر است همیشه یک یا چند درایو یدکی در دسترس داشته باشید. همچنین، پس از خرابی یک درایو، آن را در اسرع وقت با یک درایو جدید و سازگار جایگزین کنید تا فرآیند Rebuilding تکمیل شود. نظارت فعال بر وضعیت سیستم و به‌روزرسانی منظم فریم‌ویر نیز از اقدامات پیشگیرانه مهم به شمار می‌روند. اگر گروه دیسک در وضعیت QTOF قرار بگیرد، بعد از شناسایی درایوها به شکل خودکار از وضعیت قرنطینه خارج می‌شود. در این حالت، توصیه می‌شود، گزارش‌ها را مورد بررسی قرار داده تا متوجه شوید آیا نیاز است کارهای بیشتری انجام دهید یا خیر. همچنین، به این نکته دقت کنید که اگر گروه دیسک مجازی در وضعیت قرنطینه یا به اصطلاح آفلاین قرار گرفته است، گزارش‌های مربوط به آرایه را جمع آوری کرده و با واحد فنی شرکت مفتاح رایانه‌افزار تماس برقرار کنید.

مشکل ظرفیت اضافی گزارش شده در پیکربندی +DP

در یک پیکربندی مبتنی بر معماری Provisioning در استوریج HPE MSA 2062، خطای ظرفیت اضافی (capacity overage) به این معنا است که ظرفیت استفاده شده در گروه دیسک (Disk Group) یا همان Pool از ظرفیت فیزیکی موجود فراتر رفته است. این وضعیت زمانی رخ می‌دهد که شما داده‌های بیشتری از آنچه درایوها می‌توانند ذخیره کنند به سیستم اضافه می‌کنید، در حالی که قابلیت Provisioning پویا به شما اجازه می‌دهد تا به صورت منطقی (Logical) فضایی بیشتر از ظرفیت فیزیکی اختصاص دهید. از دلایل و راه‌حل‌ها به موارد زیر باید اشاره کرد:

بیش‌ازحد Provision کردن: اگر به ولوم‌ها بیش از حد ظرفیت فیزیکی واقعی فضا اختصاص داده‌اید، سیستم با این خطا مواجه می‌شود. برای حل این مشکل، یا باید فضای استفاده نشده از حجم‌ها را آزاد کنید، یا درایوهای جدید به گروه دیسک اضافه کنید تا ظرفیت فیزیکی افزایش یابد.

Snapshot و Volume Copy: اسنپ‌شات‌ها و کپی‌های ولوم‌ها نیز فضا مصرف می‌کنند. اگر تعداد زیادی اسنپ‌شات یا کپی از ولوم‌های خود دارید، ممکن است فضای مصرفی از حد مجاز فراتر رود. پاک کردن اسنپ‌شات‌های قدیمی می‌تواند به آزادسازی فضا کمک کند.

Tiering: در سیستم‌هایی که از لایه‌بندی خودکار استفاده می‌کنند، اگر داده‌ها به سرعت از لایه سریع به لایه کند منتقل نشوند، فضای لایه سریع ممکن است به سرعت پر شود.

این مشکل نشان‌دهنده نیاز به مدیریت فعال فضای ذخیره‌سازی است تا از پر شدن بیش از حد آرایه جلوگیری شود. البته، توجه داشته باشید در برخی موارد نیز یک یا چند درایو در یک گروه دیسک با مشکلی روبرو می‌شوند، در این حالت نیز باید درایوهای خراب را با نمونه‌های سالم جایگزین کنید.

نویسنده: حمیدرضا تائبی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *