راهنمای عیبیابی درایو دیسک در استوریج MSA2062 – بخش دوم
در شماره قبل، با فرآیند عیبیابی درایو دیسک در استوریج HPE MSA 2062 آشنا شدیم و برخی از مشکلات رایج در ارتباط با آنرا مورد بررسی قرار دادیم، در این مطلب قصد داریم، برخی دیگر از مشکلات رایج که متخصصان شبکه و ذخیرهسازی با آنها روبرو هستند را مورد بررسی قرار دهیم. همانگو.نه که پیشتر اشاره کردیم، عیبیابی درایو دیسک در استوریج HPE MSA 2062 اغلب شامل بررسیهای فیزیکی، نرمافزاری و بررسی وضعیت الئیدیهای درایو است. در شرایطی که عیبیابی درایو دیسک نکات خاص خود را دارد، اما یکسری نکات فنی وجود دارند که میتوان با توجه به آنها فرآیند عیبیابی را سریعتر انجام داد.
امکان خواندن بلوک داده وجود ندارد
اگر بلوک دادهای در درایو دیسک با مشکل مواجه شود و خواندن آن ناموفق باشد، نشاندهنده یک خطای جدی در دادهها است. این وضعیت معمولا به عنوان “خطای خواندن” یا “بیتهای از دست رفته” شناخته میشود و میتواند به دلایل مختلفی رخ دهد. در چنین شرایطی یک رخداد 542 یا 543 ظاهر میشود. شایان ذکر است کد خطای 542 شامل اطلاعاتی همچون نام درایو، شماره سریال درایو، آدرس بلوک منطقی گروه دیسک انتخاب شده، گروه دیسک انتخاب شده، شماره اسلات انکلوژر و شماره انکلوژر است، در حالی که اطلاعات خطای 543 مواردی مثل نام درایو انتخاب شده، شماره سریال درایو، LBA درایو، نام گروه دیسک و شماره سریال دیسک را شامل میشود.
راهحل: این خطا ممکن است به دلیل خرابی فیزیکی در سطح دیسک (مانند خراشیدگی)، آسیب به بخشهای مغناطیسی، یا مشکلات مربوط به هد خواندن/نوشتن درایو باشد. درایوهای دیسک دارای مکانیزمهای تصحیح خطا هستند، اما اگر خطا از حد مشخصی فراتر رود، درایو قادر به بازیابی دادهها نخواهد بود و این خطا در سیستم ذخیرهسازی ثبت میشود. البته، در این حالت، بلوک فوق برچسبگذاری شده و در آینده دیگر اطلاعاتی روی آن ثبت نخواهد شد.
به طور کلی، در سیستمهای ذخیرهسازی مانند MSA 2062 که از آرایههای رید استفاده میکنند، این خطا میتواند به طور خودکار مدیریت شود. اگر درایو شما در یک آرایه رید (مانند RAID 5 یا RAID 6) باشد، سیستم با استفاده از دادههای توازن (parity) موجود در درایوهای دیگر، بلوک داده آسیبدیده را بازسازی میکند تا دسترسی به اطلاعات فراهم شود. با این حال، اگر تعداد خطاها زیاد باشد، ممکن است کل درایو معیوب اعلام شود.
برای رفع این مشکل، باید از طریق رابط مدیریتی سیستم، وضعیت درایو را بررسی و اقدامات لازم را انجام دهید. اگر خطاهای خواندن تکرار شوند، بهتر است درایو معیوب را با یک درایو جدید جایگزین کنید تا مانع از بروز مشکل از دست رفتن دادهها شوید. در نهایت، همواره داشتن برنامه پشتیبانگیری بهروز از اطلاعات، بهترین راه برای مقابله با این نوع مشکلات است.
خرابیهای متعدد درایو دیسک
یکی از خطرناکترین وضعیتها در استوریج HPE MSA 2062، خرابی همزمان چندین درایو دیسک است. در یک آرایه رید، خرابی یک درایو بسته به نوع ریدبندی اعمال شده (مانند RAID 6 یا RAID 5) مدیریت میشود و سیستم وارد حالت Degraded میشود. اما اگر درایو دیگری قبل از تکمیل فرآیند بازسازی خراب شود، آرایه به طور کامل از بین میرود و منجر به از دست رفتن دادهها (Data Loss) میشود. این مشکل دلایل مختلفی رخ میدهد و راهحلهای خاص خود را دارند که از مهمترین آنها به موارد زیر باید اشاره کرد:
- خرابی درایوهای یک Batch: ممکن است درایوهایی که همزمان تولید شدهاند، عمر مفید مشابهی داشته باشند و در یک دوره زمانی کوتاه خراب شوند.
- مشکلات فریمویر: یک باگ در فریمویر درایوها یا کنترلر میتواند باعث خرابیهای زنجیرهای شود.
- مشکلات محیطی: دمای بیش از حد بالا یا نوسانات برق میتوانند به سلامت چندین درایو آسیب بزنند.
برای جلوگیری از این وضعیت، بهتر است همیشه یک یا چند درایو یدکی در دسترس داشته باشید. همچنین، پس از خرابی یک درایو، آن را در اسرع وقت با یک درایو جدید و سازگار جایگزین کنید تا فرآیند Rebuilding تکمیل شود. نظارت فعال بر وضعیت سیستم و بهروزرسانی منظم فریمویر نیز از اقدامات پیشگیرانه مهم به شمار میروند. اگر گروه دیسک در وضعیت QTOF قرار بگیرد، بعد از شناسایی درایوها به شکل خودکار از وضعیت قرنطینه خارج میشود. در این حالت، توصیه میشود، گزارشها را مورد بررسی قرار داده تا متوجه شوید آیا نیاز است کارهای بیشتری انجام دهید یا خیر. همچنین، به این نکته دقت کنید که اگر گروه دیسک مجازی در وضعیت قرنطینه یا به اصطلاح آفلاین قرار گرفته است، گزارشهای مربوط به آرایه را جمع آوری کرده و با واحد فنی شرکت مفتاح رایانهافزار تماس برقرار کنید.
مشکل ظرفیت اضافی گزارش شده در پیکربندی +DP
در یک پیکربندی مبتنی بر معماری Provisioning در استوریج HPE MSA 2062، خطای ظرفیت اضافی (capacity overage) به این معنا است که ظرفیت استفاده شده در گروه دیسک (Disk Group) یا همان Pool از ظرفیت فیزیکی موجود فراتر رفته است. این وضعیت زمانی رخ میدهد که شما دادههای بیشتری از آنچه درایوها میتوانند ذخیره کنند به سیستم اضافه میکنید، در حالی که قابلیت Provisioning پویا به شما اجازه میدهد تا به صورت منطقی (Logical) فضایی بیشتر از ظرفیت فیزیکی اختصاص دهید. از دلایل و راهحلها به موارد زیر باید اشاره کرد:
بیشازحد Provision کردن: اگر به ولومها بیش از حد ظرفیت فیزیکی واقعی فضا اختصاص دادهاید، سیستم با این خطا مواجه میشود. برای حل این مشکل، یا باید فضای استفاده نشده از حجمها را آزاد کنید، یا درایوهای جدید به گروه دیسک اضافه کنید تا ظرفیت فیزیکی افزایش یابد.
Snapshot و Volume Copy: اسنپشاتها و کپیهای ولومها نیز فضا مصرف میکنند. اگر تعداد زیادی اسنپشات یا کپی از ولومهای خود دارید، ممکن است فضای مصرفی از حد مجاز فراتر رود. پاک کردن اسنپشاتهای قدیمی میتواند به آزادسازی فضا کمک کند.
Tiering: در سیستمهایی که از لایهبندی خودکار استفاده میکنند، اگر دادهها به سرعت از لایه سریع به لایه کند منتقل نشوند، فضای لایه سریع ممکن است به سرعت پر شود.
این مشکل نشاندهنده نیاز به مدیریت فعال فضای ذخیرهسازی است تا از پر شدن بیش از حد آرایه جلوگیری شود. البته، توجه داشته باشید در برخی موارد نیز یک یا چند درایو در یک گروه دیسک با مشکلی روبرو میشوند، در این حالت نیز باید درایوهای خراب را با نمونههای سالم جایگزین کنید.
نویسنده: حمیدرضا تائبی