راهنمای عیب یابی درایو دیسک در استوریج MSA2062 – بخش اول
عیبیابی درایو دیسک در استوریج HPE MSA 2062 اغلب شامل بررسیهای فیزیکی، نرمافزاری و بررسی وضعیت LEDهای درایو است. در شرایطی که عیبیابی درایو دیسک نکات خاص خود را دارد، اما یکسری نکات فنی وجود دارند که میتوان با توجه به آنها فرآیند عیبیابی را سریعتر انجام داد. در این مطلب قصد داریم این موارد را مورد بررسی قرار دهیم.
عدم شناسایی درایو دیسک پس از تعویض آن
یکی از دلایل شایع عدم شناسایی درایو دیسک پس از تعویض آن در استوریج MSA2062، عدم سازگاری درایو جدید با سیستم است. درایو جایگزین باید از مدلهای تایید شده توسط اچپی برای این استوریج باشد.
راهحل: بنابراین، مطمئن شوید که درایو به درستی در اسلات خود قرار گرفته است و هیچ مانعی وجود ندارد. یک دلیل دیگر میتواند وضعیت قبلی درایو باشد؛ اگر درایو از یک استوریج در دستگاه جدید قرار گرفته است، ممکن است به عنوان یک درایو “Leftover” یا دارای اطلاعات پیکربندی قبلی شناسایی شود که باید قبل از استفاده پاک شود. در نهایت، بررسی کنید که آیا فریمویر کنترلر و سایر درایوها بهروز هستند یا خیر، زیرا نسخههای قدیمی میتوانند باعث مشکلات شناسایی شوند.
درایو از کار افتاده و مشکلاتی در فرآیند بازسازی وجود دارد
زمانی که یک درایو دیسک در استوریج HPE MSA 2062 از کار میافتد یا به اصطلاح Fail میشود، آرایه رید به حالت Degraded (تنزلیافته) میرود. اگر یک درایو یدکی (Spare) در دسترس باشد، سیستم به صورت خودکار فرآیند بازسازی (Rebuilding) را برای بازیابی دادهها روی آن درایو آغاز میکند. مشکلات در این فرآیند میتوانند به چند دلیل رخ دهند. اگر درایو جدید یا یدکی سازگار نباشد، یا فریمویر آن قدیمی باشد، فرآیند بازسازی با خطا مواجه میشود. همچنین، اگر در طول Rebuilding، درایو دوم نیز از کار بیفتد، فرآیند متوقف شده و به احتمال زیاد باعث از دست رفتن دادهها (Data Loss) خواهد شد، به خصوص در آرایههای RAID 5 که تحمل خطای کمتری دارند.
راهحل: در این موارد، بررسی لاگهای سیستم در رابط مدیریتی SMU ضروری است تا دلیل دقیق خرابی مشخص شود. پیامهایی مانند “Rebuild Failed” یا “Drive Not Found” میتوانند راهنمای عیبیابی باشند. در چنین شرایطی، توصیه میشود قبل از هرگونه اقدام، از سلامت درایوهای باقیمانده اطمینان حاصل کرده و سپس درایو معیوب را با یک درایو جدید و سازگار جایگزین کنید. همچنین، پیشنهاد میشود با قراردادن دوباره دیسکها، Disk Group را از وضعیت quarantine خارج کنید. اگر راهکار فوق مشکل را برطرف نکرد، گزارشهای آرایه را آماده کرده و برای متخصصان فنی در شرکت مفتاح رایانهافزار ارسال کنید.
عضو سوم درایو دیسک قبل از تکمیل فرآیند بازسازی از کار میافتد
وقتی درایو سوم درایو دیسک قبل از تکمیل بازسازی از کار می افتد، وضعیت آرایه رید به شدت بحرانی می شود و ممکن است منجر به از دست رفتن کامل داده ها شود. علت بروز مشکل معمولا به دلیل خرابی همزمان دو درایو در یک آرایه رید رخ میدهد. در طول فرآیند بازسازی (Rebuild) که پس از خرابی اولین درایو آغاز میشود، درایو دوم نیز از کار میافتد. این وضعیت به خصوص در آرایههای RAID 5 خطرناک است، زیرا این نوع رید تنها میتواند از خرابی یک درایو به طور همزمان جان سالم به در ببرد. به طور کلی، مشکل مذکور زمانی به وجود میآید که گروه دیسک با خرابی سومین درایو دیسک روبرو شده و قبل از تکمیل بازسازی به حالت QTOF وارد میشود. این مشکل نیازمند انجام یکسری از مراحل عیبیابی به شرح زیر هستند:
- وضعیت آرایه رید را بررسی کنید: با استفاده از رابط مدیریتی MSA، وضعیت آرایه را بررسی کنید. معمولا آرایه به حالت “Failed” تغییر میکند و دسترسی به دادهها قطع میشود.
- درایوهای خراب را شناسایی کنید: هر دو درایو خراب را شناسایی کنید. چراغهای وضعیت هر دو درایو احتمالا ثابت کهربایی خواهند بود.
- تعویض درایوهای خراب: درایوهای خراب را خارج کرده و با درایوهای جدید و سازگار جایگزین کنید. در حالت ایدهآل، از درایوهایی با همان مدل و ظرفیت استفاده کنید.
- بررسی وضعیت آرایه: پس از جایگزینی درایوها، آرایه به طور خودکار بازسازی را آغاز نمیکند. شما باید از طریق رابط مدیریتی، بررسی و بازیابی آرایه را انجام دهید.
- بازیابی دادهها: اگر سیستم قادر به بازیابی خودکار نیست، باید از آخرین نسخه پشتیبان خود برای بازیابی دادهها استفاده کنید. این وضعیت اهمیت داشتن نسخههای پشتیبان بهروز و خارج از محل را نشان میدهد.
قبل از انجام اینکارها مهم است به یکسری نکات مهم دقت کنید. اولین مورد پشتیبانگیری (Backup) است. همیشه از اطلاعات حیاتی خود پشتیبانگیری منظم داشته باشید تا در مواقع بحرانی، از دست رفتن دادهها را به حداقل برسانید. داشتن یک یا چند درایو یدکی به شما کمک میکند تا در صورت خرابی یک درایو، فرآیند بازسازی به سرعت و به صورت خودکار آغاز شود و زمان برای خرابی درایو دوم کمتر باشد. وضعیت آرایه و درایوهای را به طور منظم از طریق رابط مدیریتی بررسی کنید تا از مشکلات احتمالی قبل از تبدیل شدن به بحران، مطلع شوید. همچنین، در نظر داشته باشید که استفاده از RAID 6 به جای RAID 5 میتواند تحمل خرابی دو درایو را به طور همزمان فراهم کند و امنیت دادهها را به طور چشمگیری افزایش دهد.
درایو دیسک از کار افتاده و بازسازی به شکل خودکار آغاز نمیشود
این مشکل، که در سیستمهای ذخیرهسازی مانند MSA 2062 رخ میدهد، میتواند به دلایل مختلفی باشد و نیاز به بررسی دقیق دارد. یکی از رایجترین دلایل، نبودن درایو یدکی است. اگر هیچ درایو یدکی در آرایه پیکربندی نشده باشد، سیستم نمیتواند به طور خودکار فرآیند بازسازی (Rebuild) را آغاز کند. در این حالت، آرایه در وضعیت “Degraded” باقی میماند تا زمانی که یک درایو یدکی جدید اضافه شود. دلیل دیگر میتواند ناسازگاری درایو جدید باشد. اگر درایو جدیدی که اضافه کردهاید با سیستم سازگار نباشد یا از طرف اچپی تایید نشده باشد، سیستم آن را شناسایی نمیکند و بازسازی شروع نخواهد شد. همچنین، گاهی اوقات ممکن است درایو جدید به درستی در جایگاه خود قرار نگرفته باشد.
راهحل: برای حل این مشکل، ابتدا باید از طریق رابط مدیریتی سیستم، وضعیت آرایه را بررسی کنید تا مطمئن شوید که مشکل از درایو یدکی است یا خیر. سپس، یک درایو یدکی مناسب اضافه کنید و یا درایو جدید را از نظر سازگاری و جایگاه فیزیکی بررسی کنید. اگر با وجود این اقدامات، بازسازی شروع نشد، ممکن است نیاز به دخالت دستی و آغاز فرآیند از طریق نرمافزار مدیریتی باشد.
درایو دیسک با قطعات یدکی پویا، به درستی کار نمیکند
هنگامی که یک یا چند درایو که در قالب یک گروه دیسک، پارتیشنبندی شدهاند با شکست روبرو میشوند که به آن Does not apply to MSA-DP+ گفته میشود، این مشکل رخ میدهد. شایان ذکر است، هنگامی که یک درایو دیسک در سیستم ذخیرهسازی MSA 2062 با شکست رویرو میشود، یک فرآیند خودکار برای حفاظت از دادهها آغاز میشود که به آن ویژگی قطعات یدکی پویا (dynamic spares) گفته میشود. این فرایند شامل سه وضعیت اصلی برای قطعه یدکی است: فعالشده، غیرفعالشده، و پویا. به طور کلی فرآیند عملکرد قطعات یدکی پویا به شکل زیر انجام میشود:
- وضعیت فعالشدن: هنگامی که یک درایو اصلی در آرایه رید با خطا مواجه میشود، کنترلر به طور خودکار یک درایو یدکی (spare drive) را که قبلا به صورت پویا پیکربندی شده بود، فعال میکند. این درایو فعالشده فورا شروع به فرآیند بازسازی دادهها میکند.
- فرآیند بازسازی: در طول فرآیند بازسازی، چراغ وضعیت درایو یدکی به صورت چشمکزن کهربایی در میآید که نشاندهنده انتقال دادهها از درایوهای سالم باقیمانده به درایو یدکی است. این مرحله حیاتی است تا آرایه رید دوباره به حالت بهینه و ایمن بازگردد.
- غیرفعالشدن: پس از تکمیل موفقیتآمیز فرآیند بازسازی، درایو یدکی که اکنون شامل دادهها است، به عنوان یک درایو دائمی در آرایه فعالیت میکند. درایو خراب شده، غیرفعال شده و باید برای تعویض برنامهریزی شود.
این فرآیند به لطف پویاسازی قطعات یدکی، نیاز به دخالت دستی را به حداقل میرساند و به صورت خودکار از دادهها در برابر خرابی درایو محافظت میکند و باعث میشود که سیستم همیشه در حالت بهینه قرار گیرد.
درایو دیسک به عنوان LEFTOVR علامت گذاری شده است
زمانی که یک درایو در استوریج HPE MSA 2062 به عنوان “Leftover” (Leftovr) علامتگذاری میشود، به این معنی است که سیستم تشخیص داده این درایو قبلا در یک گروه دیسک (Disk Group) یا آرایه رید دیگری استفاده شده و شامل اطلاعات پیکربندی قدیمی است. در چنین شرایطی خطاهای MEDIUM / SMART / PROTOCOL / I/O TIMEOUT برای درایوها نشان داده میشود. این وضعیت اغلب پس از جابجایی درایو از یک استوریج به استوریج دیگر یا پس از خرابی کامل یک آرایه رید رخ میدهد.
راهحل: برای اینکه بتوانید دوباره از این درایو استفاده کنید، باید اطلاعات پیکربندی قدیمی آن را پاک کنید تا به عنوان یک درایو “خالی” و آماده به کار در دسترس قرار گیرد. این کار را میتوان به یکی از روشهای زیر انجام داد:
- استفاده از رابط مدیریتی SMU: در رابط کاربری گرافیکی، به بخش تنظیمات درایو بروید و گزینه “Clear Leftover” یا “Clear Metadata” را برای درایو مورد نظر پیدا و اجرا کنید. این عمل تمام اطلاعات مربوط به پیکربندیهای قبلی را از روی درایو پاک میکند.
- استفاده از Command-Line Interface (CLI): با استفاده از دستورات CLI میتوانید به صورت مستقیم این عملیات را انجام دهید. در این حالت باید از طریق ابزار مدیریت استوریج، دیسک موردنظر را انتخاب کرده و دستور clear disk leftovr به را انجام دهید تا وضعیت درایو به حالت عادی بازگردد. همچنین، در رابط گرافیکی نیز کافی است دیسک موردنظر را انتخاب کرده و گزینه Clear Disk Metadata را انتخاب کنید.
پس از پاک کردن اطلاعات، درایو به عنوان یک درایو در دسترس (Available) نمایش داده میشود و میتوانید آن را به یک گروه دیسک موجود اضافه کنید یا از آن برای ایجاد یک آرایه رید جدید استفاده نمایید. نادیده گرفتن این وضعیت میتواند باعث عدم شناسایی و استفاده از درایو در استوریج شود.
درایو خاموش است
هنگامی که یک درایو دیسک در استوریج HPE MSA 2062 خاموش است، به این معنی است که سیستم آن را شناسایی نکرده یا به آن دسترسی ندارد. این وضعیت معمولا با خاموش بودن LED درایو یا نمایش آن به عنوان “Not Present” در رابط مدیریتی SMU مشخص میشود. دلایل احتمالی و راهحلها به شرح زیر هستند:
مشکلات فیزیکی: ابتدا درایو را از کیج آن بیرون کشیده و دوباره جا بزنید. ممکن است درایو به درستی در اسلات قرار نگرفته باشد.
خرابی درایو: درایو ممکن است کاملا خراب شده باشد. برای تایید این موضوع، آن را با یک درایو سالم و سازگار جایگزین کنید.
مشکلات اسلات: اگر درایو جدید نیز شناسایی نشد، ممکن است اسلات درایو آسیب دیده باشد. سعی کنید درایو سالم را در یک اسلات دیگر قرار دهید.
مشکلات فریمویر: فریمویر قدیمی یا خراب میتواند باعث عدم شناسایی درایوها شود. مطمئن شوید فریمویر کنترلر و درایوهای دیسک بهروز هستند.
مشکلات پاور: در موارد نادر، ممکن است مشکلی در تامین برق درایو وجود داشته باشد.
جدول مشکلات رایج درایو دیسک در MSA 2062
| وضعیت الئیدی | وضعیت درایو | علت احتمالی | اقدام لازم |
| چراغ وضعیت: ثابت کهربایی | خطا در درایو | خرابی فیزیکی درایو، خطای خواندن/نوشتن، یا ناسازگاری | از طریق رابط مدیریتی وضعیت را بررسی و درایو را تعویض کنید. |
| چراغ وضعیت: چشمکزن کهربایی | بازسازی | درایو یدکی در حال بازسازی آرایه رید است. | به سیستم اجازه دهید فرآیند بازسازی را کامل کند. |
| چراغ وضعیت: خاموش | درایو سالم | درایو سالم و آماده به کار است. | نیازی به اقدام نیست. |
| چراغ وضعیت: ثابت آبی | شناسایی | درایو توسط مدیر سیستم انتخاب شده است. | این وضعیت عادی است و نشاندهنده فعالیت مدیریتی است. |
| بازسازی خودکار آغاز نمیشود | نبود درایو یدکی | آرایه رید بدون درایو یدکی است. | یک درایو یدکی جدید اضافه کرده و بازسازی را به صورت دستی آغاز کنید. |
| بلوک داده ناموفق است | خطای خواندن | خرابی فیزیکی در بخشی از دیسک. | اگر در آرایه رید هستید، سیستم تلاش به بازیابی میکند؛ در صورت تکرار خطا، درایو را تعویض کنید. |
| خرابی همزمان دو درایو | از دست رفتن آرایه | درایو دوم قبل از تکمیل بازسازی درایو اول، از کار میافتد. | آرایه رید از کار افتاده است. دادهها از دست رفته و باید از پشتیبان بازیابی شوند. |
در شماره بعد، دیگر مشکلات رایج را مورد بررسی قرار میدهیم.
حمیدرضا تائبی