راهنمای عیبیابی درایو دیسک در استوریج MSA2062 – بخش پایانی
در شمارههای قبل، با فرآیند عیبیابی درایو دیسک در استوریج HPE MSA 2062 آشنا شدیم و برخی از مشکلات رایج در ارتباط با آنرا مورد بررسی قرار دادیم، در بخش پایانی برخی دیگر از مشکلات مهمی که باید به عنوان یک کارشناس شبکه و ذخیرهسازی در مورد آنها اطلاع داشته باشید را مورد بررسی قرار میدهیم.
دیسک عضو گروه دیسک در دسترس نیست یا شناسایی نشده است
هنگامی که یک دیسک عضو گروه دیسک در استوریج HPE MSA 2062 با برچسب در دسترس نیست (Not Available) علامتگذاری میشود، بیانگر این موضوع است که کنترلر به آن درایو دسترسی ندارد و نمیتواند آن را برای خواندن یا نوشتن دادهها به کار گیرد. این وضعیت به دلایل مختلفی رخ دهد که از مهمترین آنها به موارد زیر باید اشاره کرد:
مشکل فیزیکی: درایو ممکن است به درستی در کیج خود قرار نگرفته باشد. برای رفع این مشکل، درایو را به طور کامل خارج کرده و دوباره با دقت در جای خود قرار دهید.
خرابی درایو: ممکن است خود درایو خراب شده باشد. در این صورت، باید آن را با یک درایو جدید و سازگار جایگزین کنید. همچنین، لازم به توضیح است که یک دیسک خراب مشکل دیگری نیز به وجود میآورد و این است که گروه دیسکی که بر مبنای ریدهای 0، 5 یا 10 پیکربندی شدهاند را با وضعیت بحرانی روبرو کرده یا در موارد جدیتر، وضعیت تخریبشده را برای رید 6 به وجود آورد.
مشکلات اتصال: کابلهای بین شاسی درایو (Drive Enclosure) و کنترلر ممکن است شل یا آسیب دیده باشند.
مشکلات فریمویر: گاهی اوقات، عدم تطابق یا قدیمی بودن فریمویر درایو یا کنترلر میتواند باعث از دست رفتن اتصال شود. مطمئن شوید که فریمویر هر دو دستگاه بهروز است.
وضعیت “Leftover”: اگر درایو قبلا در یک آرایه دیگر استفاده شده باشد، ممکن است به عنوان یک درایو “Leftover” شناسایی شود و به طور خودکار در دسترس قرار نگیرد. برای رفع این مشکل، باید اطلاعات پیکربندی قدیمی آن را پاک کنید.
در نهایت، بررسی لاگهای سیستم در رابط مدیریتی SMU میتواند اطلاعات دقیقی در مورد علت اصلی مشکل ارائه دهد و به شما در پیدا کردن راهحل مناسب کمک کند.
گروه دیسک در فرآیند بوت شدن آرایه قرنطینه شده است
قرنطینه شدن یک گروه دیسک هنگام بوت شدن آرایه در استوریج HPE MSA 2062 یک مکانیزم حفاظتی حیاتی است. این اتفاق زمانی رخ میدهد که کنترلر آرایه، شرایط غیرعادی و خطرناکی را در گروه دیسک تشخیص میدهد که میتواند منجر به از دست رفتن دادهها شود. در این وضعیت، سیستم به طور خودکار گروه دیسک را از دسترس خارج و آن را قرنطینه میکند تا از هرگونه عملیات خواندن/نوشتن که ممکن است به دادهها آسیب برساند، جلوگیری کند. این مسئله به دلایل زیر رخ میدهد و پیشنهاد میشود اقدامات زیر را انجام دهید:
خرابی همزمان چندین درایو: اگر تعداد درایوهای خراب از حد تحمل آرایه رید (به طور مثال RAID 5) فراتر برود، سیستم به جای تلاش برای بازسازی دادهها که ممکن است به خرابی کامل منجر شود، گروه را قرنطینه میکند.
عدم تطابق یا مشکل در فریمویر: ناسازگاری یا خرابی در فریمویر درایوها یا کنترلر میتواند باعث شود که سیستم نتواند وضعیت درایوها را به درستی شناسایی کند.
خرابی کنترلر: در موارد نادر، ممکن است خود کنترلر اصلی خراب شده باشد.
برای رفع این مشکل، باید لاگهای سیستم را در رابط مدیریتی SMU یا CLI بررسی کنید تا علت دقیق خطا را پیدا کنید. در اغلب موارد، این مشکل نیازمند باز کردن قرنطینه (dequarantine) از طریق CLI است که یک فرآیند حساس است و معمولا توصیه میشود توسط کارشناسان فنی انجام شود، زیرا هرگونه اقدام نادرست میتواند منجر به از بین رفتن دائمی دادهها شود.
کلام آخر
به طور کلی، هنگامی که خطایی در ارتباط با درایوها و استوریج MSA 2062 رخ میدهد، بهتر است، ابتدا به بررسی فیزیکی و وضعیت LEDها بپردازید. به بیان دقیقتر، اولین و مهمترین قدم، بررسی بصری وضعیت استوریج است. هر درایو در استوریج MSA 2062 دارای یک یا چند LED است که وضعیت آن را نشان میدهد. این چراغها وضعیتهای زیر را نشان میدهند:
چشمکزن سبز: درایو در حال فعالیت است.
ثابت سبز: درایو آماده به کار است.
چشمکزن نارنجی/کهربایی: معمولا نشاندهنده یک مشکل مانند خرابی درایو یا Rebuilding (بازسازی) است.
خاموش: درایو شناسایی نشده یا خاموش است.
اولین کاری که باید هنگام عیبیابی انجام دهید این است که مطمئن شوید درایو به درستی در جای خود قرار گرفته و هیچگونه آسیب فیزیکی مانند شکستگی یا خمیدگی روی آن وجود ندارد. درایو را به آرامی خارج کرده و دوباره جا بزنید تا مطمئن شوید به درستی در اسلات قرار گرفته است. همچنین، بهترین ابزار در این زمینه رابط مدیریتی استوریج (SMU) یا Command-Line Interface (CLI) است که ابزارهای قدرتمندی برای عیبیابی هستند.
پیشنهاد میشود وارد رابط مدیریتی شوید و وضعیت هر درایو را در بخش مربوطه بررسی کنید. SMU وضعیت درایوها را به صورت گرافیکی نمایش میدهد و مشکلات را به وضوح نشان میدهد (مثلا با علامت قرمز یا پیام هشدار). لاگها یا گزارشهای سیستم (Logs) را بررسی کنید تا پیامهای خطای مرتبط با درایو مورد نظر را پیدا کنید. این پیامها معمولا جزئیات بیشتری در مورد علت خرابی (مانند خطای خواندن/نوشتن، خطای Firmware و…) ارائه میدهند.
اگر درایو بخشی از یک گروه رید باشد، وضعیت آن گروه را نیز بررسی کنید. اگر درایو خراب شده، گروه رید ممکن است در حالت قرار میگیرد. همچنین، توجه داشته باشید که اگر یک درایو به عنوان خراب (Failed) شناسایی شده، باید آن را با یک درایو جدید و سازگار جایگزین کنید. اگر پس از تعویض درایو نیز مشکل پابرجا بود، ممکن است اسلات درایو یا حتی شاسی مشکل داشته باشد. در این حالت، درایو سالم را در اسلات دیگری قرار دهید تا مطمئن شوید مشکل از اسلات نیست.
اگر عیبیابی با روشهای فوق نتیجهبخش نبود، ممکن است با مشکلات پیچیدهتری روبرو باشید. اولین مورد خرابی همزمان چندین درایو است. این وضعیت میتواند منجر به خرابی کامل گروه دیسک (Disk Group) و از دست رفتن دادهها شود، به خصوص در سطوح RAID مانند RAID 5 که تحمل خطای کمتری دارند. در موارد نادر، ممکن است خود کنترلر استوریج خراب شده باشد. در این شرایط، جمعآوری لاگهای سیستم و تماس با پشتیبانی فنی واحد مفتاح رایانهافزار به شما در حل مشکلات کمک میکند.
جدول عیبیابی درایو دیسک در استوریج HPE MSA 2062
| وضعیت چراغ الئیدی | وضعیت درایو | علت احتمالی | اقدام لازم |
| چراغ وضعیت: ثابت کهربایی | خطا در درایو | خرابی فیزیکی درایو، خطای خواندن/نوشتن، یا ناسازگاری | از طریق رابط مدیریتی وضعیت را بررسی و درایو را تعویض کنید. |
| چراغ وضعیت: چشمکزن کهربایی | بازسازی (Rebuild) | درایو یدکی (Spare) در حال بازسازی آرایه رید است. | به سیستم اجازه دهید فرآیند بازسازی را کامل کند. |
| چراغ وضعیت: خاموش | درایو سالم | درایو سالم و آماده به کار است. | نیازی به اقدام نیست. |
| چراغ وضعیت: ثابت آبی | شناسایی (Identify) | درایو توسط مدیر سیستم انتخاب شده است. | این وضعیت عادی است و نشاندهنده فعالیت مدیریتی است. |
| بازسازی خودکار آغاز نمیشود | نبود درایو یدکی | آرایه رید بدون درایو یدکی (Hot Spare) است. | یک درایو یدکی جدید اضافه کرده و بازسازی را به صورت دستی آغاز کنید. |
| بلوک داده ناموفق است | خطای خواندن | خرابی فیزیکی در بخشی از دیسک. | اگر در آرایه رید هستید، سیستم تلاش به بازیابی میکند؛ در صورت تکرار خطا، درایو را تعویض کنید. |
| خرابی همزمان دو درایو | از دست رفتن آرایه | درایو دوم قبل از تکمیل بازسازی درایو اول، از کار میافتد. | آرایه رید از کار افتاده است. دادهها از دست رفته و باید از پشتیبان بازیابی شوند. |
حمیدرضا تائبی