اخبار

راهنمای عیب‌یابی درایو دیسک در استوریج MSA2062 – بخش پایانی

در شماره‌های قبل، با فرآیند عیب‌یابی درایو دیسک در استوریج HPE MSA 2062 آشنا شدیم و برخی از مشکلات رایج در ارتباط با آن‌را مورد بررسی قرار دادیم، در بخش پایانی برخی دیگر از مشکلات مهمی که باید به عنوان یک کارشناس شبکه و ذخیره‌سازی در مورد آن‌ها اطلاع داشته باشید را مورد بررسی قرار می‌دهیم.

دیسک عضو گروه دیسک در دسترس نیست یا شناسایی نشده است

هنگامی که یک دیسک عضو گروه دیسک در استوریج HPE MSA 2062 با برچسب در دسترس نیست (Not Available) علامت‌گذاری می‌شود، بیان‌گر این موضوع است که کنترلر به آن درایو دسترسی ندارد و نمی‌تواند آن را برای خواندن یا نوشتن داده‌ها به کار گیرد. این وضعیت به دلایل مختلفی رخ دهد که از مهم‌ترین آن‌ها به موارد زیر باید اشاره کرد:

مشکل فیزیکی: درایو ممکن است به درستی در کیج خود قرار نگرفته باشد. برای رفع این مشکل، درایو را به طور کامل خارج کرده و دوباره با دقت در جای خود قرار دهید.

خرابی درایو: ممکن است خود درایو خراب شده باشد. در این صورت، باید آن را با یک درایو جدید و سازگار جایگزین کنید. همچنین، لازم به توضیح است که یک دیسک خراب مشکل دیگری نیز به وجود می‌آورد و این است که گروه دیسکی که بر مبنای ریدهای 0، 5 یا 10 پیکربندی شده‌اند را با وضعیت بحرانی روبرو کرده یا در موارد جدی‌تر، وضعیت تخریب‌شده را برای رید 6 به وجود آورد.

مشکلات اتصال: کابل‌های بین شاسی درایو (Drive Enclosure) و کنترلر ممکن است شل یا آسیب دیده باشند.

مشکلات فریم‌ویر: گاهی اوقات، عدم تطابق یا قدیمی بودن فریم‌ویر درایو یا کنترلر می‌تواند باعث از دست رفتن اتصال شود. مطمئن شوید که فریم‌ویر هر دو دستگاه به‌روز است.

وضعیت “Leftover”: اگر درایو قبلا در یک آرایه دیگر استفاده شده باشد، ممکن است به عنوان یک درایو “Leftover” شناسایی شود و به طور خودکار در دسترس قرار نگیرد. برای رفع این مشکل، باید اطلاعات پیکربندی قدیمی آن را پاک کنید.

در نهایت، بررسی لاگ‌های سیستم در رابط مدیریتی SMU می‌تواند اطلاعات دقیقی در مورد علت اصلی مشکل ارائه دهد و به شما در پیدا کردن راه‌حل مناسب کمک کند.

گروه دیسک در فرآیند بوت شدن آرایه قرنطینه شده است

قرنطینه شدن یک گروه دیسک هنگام بوت شدن آرایه در استوریج HPE MSA 2062 یک مکانیزم حفاظتی حیاتی است. این اتفاق زمانی رخ می‌دهد که کنترلر آرایه، شرایط غیرعادی و خطرناکی را در گروه دیسک تشخیص می‌دهد که می‌تواند منجر به از دست رفتن داده‌ها شود. در این وضعیت، سیستم به طور خودکار گروه دیسک را از دسترس خارج و آن را قرنطینه می‌کند تا از هرگونه عملیات خواندن/نوشتن که ممکن است به داده‌ها آسیب برساند، جلوگیری کند. این مسئله به دلایل زیر رخ می‌دهد و پیشنهاد می‌شود اقدامات زیر را انجام دهید:

خرابی همزمان چندین درایو: اگر تعداد درایوهای خراب از حد تحمل آرایه رید (به طور مثال RAID 5) فراتر برود، سیستم به جای تلاش برای بازسازی داده‌ها که ممکن است به خرابی کامل منجر شود، گروه را قرنطینه می‌کند.

عدم تطابق یا مشکل در فریم‌ویر: ناسازگاری یا خرابی در فریم‌ویر درایوها یا کنترلر می‌تواند باعث شود که سیستم نتواند وضعیت درایوها را به درستی شناسایی کند.

خرابی کنترلر: در موارد نادر، ممکن است خود کنترلر اصلی خراب شده باشد.

برای رفع این مشکل، باید لاگ‌های سیستم را در رابط مدیریتی SMU یا CLI بررسی کنید تا علت دقیق خطا را پیدا کنید. در اغلب موارد، این مشکل نیازمند باز کردن قرنطینه (dequarantine) از طریق CLI است که یک فرآیند حساس است و معمولا توصیه می‌شود توسط کارشناسان فنی انجام شود، زیرا هرگونه اقدام نادرست می‌تواند منجر به از بین رفتن دائمی داده‌ها شود.

کلام آخر

به طور کلی، هنگامی که خطایی در ارتباط با درایو‌ها و استوریج MSA 2062 رخ می‌دهد، بهتر است، ابتدا به بررسی فیزیکی و وضعیت LEDها بپردازید. به بیان دقیق‌تر، اولین و مهم‌ترین قدم، بررسی بصری وضعیت استوریج است. هر درایو در استوریج MSA 2062 دارای یک یا چند LED است که وضعیت آن را نشان می‌دهد. این چراغ‌ها وضعیت‌های زیر را نشان می‌دهند:

چشمک‌زن سبز: درایو در حال فعالیت است.

ثابت سبز: درایو آماده به کار است.

چشمک‌زن نارنجی/کهربایی: معمولا نشان‌دهنده یک مشکل مانند خرابی درایو یا Rebuilding (بازسازی) است.

خاموش: درایو شناسایی نشده یا خاموش است.

اولین کاری که باید هنگام عیب‌یابی انجام دهید این است که مطمئن شوید درایو به درستی در جای خود قرار گرفته و هیچ‌گونه آسیب فیزیکی مانند شکستگی یا خمیدگی روی آن وجود ندارد. درایو را به آرامی خارج کرده و دوباره جا بزنید تا مطمئن شوید به درستی در اسلات قرار گرفته است. همچنین، بهترین ابزار در این زمینه رابط مدیریتی استوریج (SMU) یا Command-Line Interface (CLI) است که ابزارهای قدرتمندی برای عیب‌یابی هستند.

پیشنهاد می‌شود وارد رابط مدیریتی شوید و وضعیت هر درایو را در بخش مربوطه بررسی کنید. SMU وضعیت درایوها را به صورت گرافیکی نمایش می‌دهد و مشکلات را به وضوح نشان می‌دهد (مثلا با علامت قرمز یا پیام هشدار). لاگ‌ها یا گزارش‌های سیستم (Logs) را بررسی کنید تا پیام‌های خطای مرتبط با درایو مورد نظر را پیدا کنید. این پیام‌ها معمولا جزئیات بیشتری در مورد علت خرابی (مانند خطای خواندن/نوشتن، خطای Firmware و…) ارائه می‌دهند.

اگر درایو بخشی از یک گروه رید باشد، وضعیت آن گروه را نیز بررسی کنید. اگر درایو خراب شده، گروه رید ممکن است در حالت قرار می‌گیرد. همچنین، توجه داشته باشید که اگر یک درایو به عنوان خراب (Failed) شناسایی شده، باید آن را با یک درایو جدید و سازگار جایگزین کنید. اگر پس از تعویض درایو نیز مشکل پابرجا بود، ممکن است اسلات درایو یا حتی شاسی مشکل داشته باشد. در این حالت، درایو سالم را در اسلات دیگری قرار دهید تا مطمئن شوید مشکل از اسلات نیست.

اگر عیب‌یابی با روش‌های فوق نتیجه‌بخش نبود، ممکن است با مشکلات پیچیده‌تری روبرو باشید. اولین مورد خرابی همزمان چندین درایو است. این وضعیت می‌تواند منجر به خرابی کامل گروه دیسک (Disk Group) و از دست رفتن داده‌ها شود، به خصوص در سطوح RAID مانند RAID 5 که تحمل خطای کمتری دارند. در موارد نادر، ممکن است خود کنترلر استوریج خراب شده باشد. در این شرایط، جمع‌آوری لاگ‌های سیستم و تماس با پشتیبانی فنی واحد مفتاح رایانه‌افزار به شما در حل مشکلات کمک می‌کند.

جدول عیب‌یابی درایو دیسک در استوریج HPE MSA 2062

وضعیت چراغ ال‌ئی‌دی وضعیت درایو علت احتمالی اقدام لازم
چراغ وضعیت: ثابت کهربایی خطا در درایو خرابی فیزیکی درایو، خطای خواندن/نوشتن، یا ناسازگاری از طریق رابط مدیریتی وضعیت را بررسی و درایو را تعویض کنید.
چراغ وضعیت: چشمک‌زن کهربایی بازسازی (Rebuild) درایو یدکی (Spare) در حال بازسازی آرایه رید است. به سیستم اجازه دهید فرآیند بازسازی را کامل کند.
چراغ وضعیت: خاموش درایو سالم درایو سالم و آماده به کار است. نیازی به اقدام نیست.
چراغ وضعیت: ثابت آبی شناسایی (Identify) درایو توسط مدیر سیستم انتخاب شده است. این وضعیت عادی است و نشان‌دهنده فعالیت مدیریتی است.
بازسازی خودکار آغاز نمی‌شود نبود درایو یدکی آرایه رید بدون درایو یدکی (Hot Spare) است. یک درایو یدکی جدید اضافه کرده و بازسازی را به صورت دستی آغاز کنید.
بلوک داده ناموفق است خطای خواندن خرابی فیزیکی در بخشی از دیسک. اگر در آرایه رید هستید، سیستم تلاش به بازیابی می‌کند؛ در صورت تکرار خطا، درایو را تعویض کنید.
خرابی همزمان دو درایو از دست رفتن آرایه درایو دوم قبل از تکمیل بازسازی درایو اول، از کار می‌افتد. آرایه رید از کار افتاده است. داده‌ها از دست رفته و باید از پشتیبان بازیابی شوند.

حمیدرضا تائبی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *