تیپ درایو و استوریج

راهنمای عیب ‌یابی درایو دیسک در استوریج MSA2062 – بخش اول

عیب‌یابی درایو دیسک در استوریج HPE MSA 2062 اغلب شامل بررسی‌های فیزیکی، نرم‌افزاری و بررسی وضعیت LEDهای درایو است. در شرایطی که عیب‌یابی درایو دیسک نکات خاص خود را دارد، اما یکسری نکات فنی وجود دارند که می‌توان با توجه به آن‌ها فرآیند عیب‌یابی را سریع‌تر انجام داد. در این مطلب قصد داریم این موارد را مورد بررسی قرار دهیم.

عدم شناسایی درایو دیسک پس از تعویض آن

یکی از دلایل شایع عدم شناسایی درایو دیسک پس از تعویض آن در استوریج MSA2062، عدم سازگاری درایو جدید با سیستم است. درایو جایگزین باید از مدل‌های تایید شده توسط اچ‌پی برای این استوریج باشد.

راه‌حل: بنابراین، مطمئن شوید که درایو به درستی در اسلات خود قرار گرفته است و هیچ مانعی وجود ندارد. یک دلیل دیگر می‌تواند وضعیت قبلی درایو باشد؛ اگر درایو از یک استوریج در دستگاه جدید قرار گرفته است، ممکن است به عنوان یک درایو “Leftover” یا دارای اطلاعات پیکربندی قبلی شناسایی شود که باید قبل از استفاده پاک شود. در نهایت، بررسی کنید که آیا فریم‌ویر کنترلر و سایر درایوها به‌روز هستند یا خیر، زیرا نسخه‌های قدیمی می‌توانند باعث مشکلات شناسایی شوند.

درایو از کار افتاده و مشکلاتی در فرآیند بازسازی وجود دارد

زمانی که یک درایو دیسک در استوریج HPE MSA 2062 از کار می‌افتد یا به اصطلاح Fail می‌شود، آرایه رید به حالت Degraded (تنزل‌یافته) می‌رود. اگر یک درایو یدکی (Spare) در دسترس باشد، سیستم به صورت خودکار فرآیند بازسازی (Rebuilding) را برای بازیابی داده‌ها روی آن درایو آغاز می‌کند. مشکلات در این فرآیند می‌توانند به چند دلیل رخ دهند. اگر درایو جدید یا یدکی سازگار نباشد، یا فریم‌ویر آن قدیمی باشد، فرآیند بازسازی با خطا مواجه می‌شود. همچنین، اگر در طول Rebuilding، درایو دوم نیز از کار بیفتد، فرآیند متوقف شده و به احتمال زیاد باعث از دست رفتن داده‌ها (Data Loss) خواهد شد، به خصوص در آرایه‌های RAID 5 که تحمل خطای کمتری دارند.

راه‌حل: در این موارد، بررسی لاگ‌های سیستم در رابط مدیریتی SMU ضروری است تا دلیل دقیق خرابی مشخص شود. پیام‌هایی مانند “Rebuild Failed” یا “Drive Not Found” می‌توانند راهنمای عیب‌یابی باشند. در چنین شرایطی، توصیه می‌شود قبل از هرگونه اقدام، از سلامت درایوهای باقی‌مانده اطمینان حاصل کرده و سپس درایو معیوب را با یک درایو جدید و سازگار جایگزین کنید. همچنین، پیشنهاد می‌شود با قراردادن دوباره دیسک‌ها، Disk Group را از وضعیت quarantine خارج کنید. اگر راهکار فوق مشکل را برطرف نکرد، گزارش‌های آرایه را آماده کرده و برای متخصصان فنی در شرکت مفتاح رایانه‌افزار ارسال کنید.

عضو سوم درایو دیسک قبل از تکمیل فرآیند بازسازی از کار میافتد

وقتی درایو سوم درایو دیسک قبل از تکمیل بازسازی از کار می افتد، وضعیت آرایه رید به شدت بحرانی می شود و ممکن است منجر به از دست رفتن کامل داده ها شود. علت بروز مشکل معمولا به دلیل خرابی همزمان دو درایو در یک آرایه رید رخ می‌دهد. در طول فرآیند بازسازی (Rebuild) که پس از خرابی اولین درایو آغاز می‌شود، درایو دوم نیز از کار می‌افتد. این وضعیت به خصوص در آرایه‌های RAID 5 خطرناک است، زیرا این نوع رید تنها می‌تواند از خرابی یک درایو به طور همزمان جان سالم به در ببرد. به طور کلی، مشکل مذکور زمانی به وجود می‌آید که گروه دیسک با خرابی سومین درایو دیسک روبرو شده و قبل از تکمیل بازسازی به حالت QTOF وارد می‌شود. این مشکل نیازمند انجام یکسری از مراحل عیب‌یابی به شرح زیر هستند:

  1. وضعیت آرایه رید را بررسی کنید:  با استفاده از رابط مدیریتی MSA، وضعیت آرایه را بررسی کنید. معمولا آرایه به حالت “Failed” تغییر می‌کند و دسترسی به داده‌ها قطع می‌شود. 
  1. درایوهای خراب را شناسایی کنید: هر دو درایو خراب را شناسایی کنید. چراغ‌های وضعیت هر دو درایو احتمالا ثابت کهربایی خواهند بود. 
  1. تعویض درایوهای خراب: درایوهای خراب را خارج کرده و با درایوهای جدید و سازگار جایگزین کنید. در حالت ایده‌آل، از درایوهایی با همان مدل و ظرفیت استفاده کنید. 
  1. بررسی وضعیت آرایه: پس از جایگزینی درایوها، آرایه به طور خودکار بازسازی را آغاز نمی‌کند. شما باید از طریق رابط مدیریتی، بررسی و بازیابی آرایه را انجام دهید. 
  1. بازیابی داده‌ها: اگر سیستم قادر به بازیابی خودکار نیست، باید از آخرین نسخه پشتیبان خود برای بازیابی داده‌ها استفاده کنید. این وضعیت اهمیت داشتن نسخه‌های پشتیبان به‌روز و خارج از محل را نشان می‌دهد. 

قبل از انجام این‌کارها مهم است به یکسری نکات مهم دقت کنید. اولین مورد پشتیبان‌گیری (Backup) است. همیشه از اطلاعات حیاتی خود پشتیبان‌گیری منظم داشته باشید تا در مواقع بحرانی، از دست رفتن داده‌ها را به حداقل برسانید. داشتن یک یا چند درایو یدکی به شما کمک می‌کند تا در صورت خرابی یک درایو، فرآیند بازسازی به سرعت و به صورت خودکار آغاز شود و زمان برای خرابی درایو دوم کمتر باشد. وضعیت آرایه و درایوهای را به طور منظم از طریق رابط مدیریتی بررسی کنید تا از مشکلات احتمالی قبل از تبدیل شدن به بحران، مطلع شوید. همچنین، در نظر داشته باشید که استفاده از RAID 6 به جای RAID 5 می‌تواند تحمل خرابی دو درایو را به طور همزمان فراهم کند و امنیت داده‌ها را به طور چشمگیری افزایش دهد.

درایو دیسک از کار افتاده و بازسازی به شکل خودکار آغاز نمی‌شود

این مشکل، که در سیستم‌های ذخیره‌سازی مانند MSA 2062 رخ می‌دهد، می‌تواند به دلایل مختلفی باشد و نیاز به بررسی دقیق دارد. یکی از رایج‌ترین دلایل، نبودن درایو یدکی است. اگر هیچ درایو یدکی در آرایه پیکربندی نشده باشد، سیستم نمی‌تواند به طور خودکار فرآیند بازسازی (Rebuild) را آغاز کند. در این حالت، آرایه در وضعیت “Degraded” باقی می‌ماند تا زمانی که یک درایو یدکی جدید اضافه شود. دلیل دیگر می‌تواند ناسازگاری درایو جدید باشد. اگر درایو جدیدی که اضافه کرده‌اید با سیستم سازگار نباشد یا از طرف اچ‌پی تایید نشده باشد، سیستم آن را شناسایی نمی‌کند و بازسازی شروع نخواهد شد. همچنین، گاهی اوقات ممکن است درایو جدید به درستی در جایگاه خود قرار نگرفته باشد.

راه‌حل: برای حل این مشکل، ابتدا باید از طریق رابط مدیریتی سیستم، وضعیت آرایه را بررسی کنید تا مطمئن شوید که مشکل از درایو یدکی است یا خیر. سپس، یک درایو یدکی مناسب اضافه کنید و یا درایو جدید را از نظر سازگاری و جایگاه فیزیکی بررسی کنید. اگر با وجود این اقدامات، بازسازی شروع نشد، ممکن است نیاز به دخالت دستی و آغاز فرآیند از طریق نرم‌افزار مدیریتی باشد.

درایو دیسک با قطعات یدکی پویا، به درستی کار نمی‌کند

هنگامی که یک یا چند درایو که در قالب یک گروه دیسک، پارتیشن‌بندی شده‌اند با شکست روبرو می‌شوند که به آن Does not apply to MSA-DP+ گفته می‌شود، این مشکل رخ می‌دهد. شایان ذکر است، هنگامی که یک درایو دیسک در سیستم ذخیره‌سازی MSA 2062 با شکست رویرو می‌شود، یک فرآیند خودکار برای حفاظت از داده‌ها آغاز می‌شود که به آن ویژگی قطعات یدکی پویا (dynamic spares) گفته می‌شود. این فرایند شامل سه وضعیت اصلی برای قطعه یدکی است: فعال‌شده، غیرفعال‌شده، و پویا. به طور کلی فرآیند عملکرد قطعات یدکی پویا به شکل زیر انجام می‌شود:

  1. وضعیت فعال‌شدن: هنگامی که یک درایو اصلی در آرایه رید با خطا مواجه می‌شود، کنترلر به طور خودکار یک درایو یدکی (spare drive) را که قبلا به صورت پویا پیکربندی شده بود، فعال می‌کند. این درایو فعال‌شده فورا شروع به فرآیند بازسازی داده‌ها می‌کند. 
  1. فرآیند بازسازی: در طول فرآیند بازسازی، چراغ وضعیت درایو یدکی به صورت چشمک‌زن کهربایی در می‌آید که نشان‌دهنده انتقال داده‌ها از درایوهای سالم باقی‌مانده به درایو یدکی است. این مرحله حیاتی است تا آرایه رید دوباره به حالت بهینه و ایمن بازگردد. 
  1. غیرفعال‌شدن: پس از تکمیل موفقیت‌آمیز فرآیند بازسازی، درایو یدکی که اکنون شامل داده‌ها است، به عنوان یک درایو دائمی در آرایه فعالیت می‌کند. درایو خراب شده، غیرفعال شده و باید برای تعویض برنامه‌ریزی شود. 

این فرآیند به لطف پویاسازی قطعات یدکی، نیاز به دخالت دستی را به حداقل می‌رساند و به صورت خودکار از داده‌ها در برابر خرابی درایو محافظت می‌کند و باعث می‌شود که سیستم همیشه در حالت بهینه قرار گیرد.

درایو دیسک به عنوان LEFTOVR علامت گذاری شده است

زمانی که یک درایو در استوریج HPE MSA 2062 به عنوان “Leftover” (Leftovr) علامت‌گذاری می‌شود، به این معنی است که سیستم تشخیص داده این درایو قبلا در یک گروه دیسک (Disk Group) یا آرایه رید دیگری استفاده شده و شامل اطلاعات پیکربندی قدیمی است. در چنین شرایطی خطاهای MEDIUM / SMART / PROTOCOL / I/O TIMEOUT برای درایوها نشان داده می‌شود. این وضعیت اغلب پس از جابجایی درایو از یک استوریج به استوریج دیگر یا پس از خرابی کامل یک آرایه رید رخ می‌دهد.

راه‌حل: برای اینکه بتوانید دوباره از این درایو استفاده کنید، باید اطلاعات پیکربندی قدیمی آن را پاک کنید تا به عنوان یک درایو “خالی” و آماده به کار در دسترس قرار گیرد. این کار را می‌توان به یکی از روش‌های زیر انجام داد:

  1. استفاده از رابط مدیریتی SMU: در رابط کاربری گرافیکی، به بخش تنظیمات درایو بروید و گزینه “Clear Leftover” یا “Clear Metadata” را برای درایو مورد نظر پیدا و اجرا کنید. این عمل تمام اطلاعات مربوط به پیکربندی‌های قبلی را از روی درایو پاک می‌کند. 
  1. استفاده از Command-Line Interface (CLI): با استفاده از دستورات CLI می‌توانید به صورت مستقیم این عملیات را انجام دهید. در این حالت باید از طریق ابزار مدیریت استوریج، دیسک موردنظر را انتخاب کرده و دستور clear disk leftovr به را انجام دهید تا وضعیت درایو به حالت عادی بازگردد. همچنین، در رابط گرافیکی نیز کافی است دیسک موردنظر را انتخاب کرده و گزینه Clear Disk Metadata را انتخاب کنید.  

پس از پاک کردن اطلاعات، درایو به عنوان یک درایو در دسترس (Available) نمایش داده می‌شود و می‌توانید آن را به یک گروه دیسک موجود اضافه کنید یا از آن برای ایجاد یک آرایه رید جدید استفاده نمایید. نادیده گرفتن این وضعیت می‌تواند باعث عدم شناسایی و استفاده از درایو در استوریج شود.

درایو خاموش است

هنگامی که یک درایو دیسک در استوریج HPE MSA 2062 خاموش است، به این معنی است که سیستم آن را شناسایی نکرده یا به آن دسترسی ندارد. این وضعیت معمولا با خاموش بودن LED درایو یا نمایش آن به عنوان “Not Present” در رابط مدیریتی SMU مشخص می‌شود. دلایل احتمالی و راه‌حل‌ها به شرح زیر هستند:

مشکلات فیزیکی: ابتدا درایو را از کیج آن بیرون کشیده و دوباره جا بزنید. ممکن است درایو به درستی در اسلات قرار نگرفته باشد.

خرابی درایو: درایو ممکن است کاملا خراب شده باشد. برای تایید این موضوع، آن را با یک درایو سالم و سازگار جایگزین کنید.

مشکلات اسلات: اگر درایو جدید نیز شناسایی نشد، ممکن است اسلات درایو آسیب دیده باشد. سعی کنید درایو سالم را در یک اسلات دیگر قرار دهید.

مشکلات فریم‌ویر: فریم‌ویر قدیمی یا خراب می‌تواند باعث عدم شناسایی درایوها شود. مطمئن شوید فریم‌ویر کنترلر و درایوهای دیسک به‌روز هستند.

مشکلات پاور: در موارد نادر، ممکن است مشکلی در تامین برق درایو وجود داشته باشد.

جدول مشکلات رایج درایو دیسک در MSA 2062

وضعیت ال‌ئی‌دی وضعیت درایو علت احتمالی اقدام لازم
چراغ وضعیت: ثابت کهربایی خطا در درایو خرابی فیزیکی درایو، خطای خواندن/نوشتن، یا ناسازگاری از طریق رابط مدیریتی وضعیت را بررسی و درایو را تعویض کنید.
چراغ وضعیت: چشمک‌زن کهربایی بازسازی درایو یدکی در حال بازسازی آرایه رید است. به سیستم اجازه دهید فرآیند بازسازی را کامل کند.
چراغ وضعیت: خاموش درایو سالم درایو سالم و آماده به کار است. نیازی به اقدام نیست.
چراغ وضعیت: ثابت آبی شناسایی درایو توسط مدیر سیستم انتخاب شده است. این وضعیت عادی است و نشان‌دهنده فعالیت مدیریتی است.
بازسازی خودکار آغاز نمی‌شود نبود درایو یدکی آرایه رید بدون درایو یدکی است. یک درایو یدکی جدید اضافه کرده و بازسازی را به صورت دستی آغاز کنید.
بلوک داده ناموفق است خطای خواندن خرابی فیزیکی در بخشی از دیسک. اگر در آرایه رید هستید، سیستم تلاش به بازیابی می‌کند؛ در صورت تکرار خطا، درایو را تعویض کنید.
خرابی همزمان دو درایو از دست رفتن آرایه درایو دوم قبل از تکمیل بازسازی درایو اول، از کار می‌افتد. آرایه رید از کار افتاده است. داده‌ها از دست رفته و باید از پشتیبان بازیابی شوند.

در شماره بعد، دیگر مشکلات رایج را مورد بررسی قرار می‌دهیم.

حمیدرضا تائبی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *