عیب یابی در سرورهای HPE Proliant Gen10 - بخش اول آماده سازی

24 خرداد 1400      0 دیدگاه

عیب یابی سرورهای نسل دهم HPE

پیش نیازهای عیب یابی سرور

هشدار: برای جلوگیری از مشکلات احتمالی ، قبل از حذف (جدا کردن)، جایگزینی، reset و یا اصلاح اجزای سیستم،

همیشه  اخطارها و اطلاعات هشدار دهنده را در راهنمای محصول را مطالعه کنید.

توجه: این راهنما اطلاعاتی را برای چندین سرور فراهم می کند. برخی از اطلاعات ممکن است برای سروری که کاربر در حال رفع مشکل آن است، قابلیت اعمال نداشته باشد. برای اطلاعات در مورد روش ها، گزینه های سخت افزاری ، ابزارهای نرم افزاری و سیستم عامل های پشتیبانی شده توسط سرور، به اسناد سرور مراجعه کنید.

 

روند اجرا:

  1. اطلاعات مهم ایمنی را مرور کنید.
  2. اطلاعات علائم (symptom) را جمع آوری و ضبط کنید.
  3. تمام اطلاعات خطا مانند پیام خطای POST (Power-On Self-Test) نمایش داده شده و IML را جمع آوری کنید.
  4. اگر لازم است با Hewlett Packard Enterprise یا شرکتی که خدمات HPE را به شما ارائه می کند، تماس بگیرید، گزارش Active Health System را بارگیری کنید و پرونده پشتیبانی را از طریق Active Health System Viewer به اختصار (AHSV) ارسال کنید. برای اطلاعات بیشتر در مورد AHSV اینجا را کلیک کنید.
  5. سرور را برای فرایند عیب شناسی (diagnosis) آماده کنید.
  6. روند عیب شناسی را آغاز کنید.

 

اطلاعات ایمنی مهم

قبل از عیب یابی سرور با اطلاعات ایمنی در بخشهای زیر آشنا شوید.

اخطارها:

فقط تکنسین های مجاز آموزش دیده HPE باید تلاش کنند این تجهیزات را تعمیر کنند. کلیه مراحل عیب یابی و تعمیرات به جزئیات لیست شده اند تا فقط اجازه دهند تعمیر در سطح مونتاژ/ماژول امکان پذیر شود. به دلیل پیچیدگی board ها و زیر مجموعه های جداگانه ، هیچ کس نباید سعی کند تعمیراتی را در سطح قطعه انجام دهد یا در برد مدار چاپی تغییراتی ایجاد کند. تعمیرات نادرست می تواند خطر ایمنی ایجاد کند.

 

برای کاهش خطر صدمه شخصی یا صدمه به تجهیزات، قبل از اقدام به نصب، اطلاعات ایمنی و مستندات کاربری ارائه شده به همراه سرور را مطالعه کنید. بعضی از سرورها حاوی مدارهای پرانرژی، مدارهای جریان زیاد، قطعات متحرک (مانند پره های فن) یا هر ترکیبی از این خطرات هستند که در صورت برداشته شدن درپوش ها و صفحات دسترسی در هنگام اتصال محصول به منبع تغذیه ، ممکن است در معرض خطر قرار گیرند. فقط پرسنل واجد شرایط و آموزش دیده برای مقابله با این خطر در این محصولات باید وارد عمل شوند.. سعی نکنید محفظه ها را بردارید و یا هرگونه قفل داخلی که برای محافظت در برابر این شرایط خطرناک طراحی شده است را دور بزنید.

 

برای کاهش خطر صدمه شخصی یا صدمه به تجهیزات ، مطمئن شوید که:

  • پایه های تسطیح کننده (leveling feet) به کف کشیده می شوند.
  • وزن کامل تکیه گاه قفسه (rack rests) بر روی پایه های تسطیح کننده قرار دارد.
  • در صورت استفاده از نصب تک رک (single-rack) پایه های تثبیت کننده (stabilizing feet) به رک متصل شوند.
  • رک ها در نصب های چند رک (multiple-rack) به هم جفت شوند.
  • در یک زمان فقط یک مولفه توسعه داده شود. اگر به هر دلیلی روی بیش از یک مولفه (component) کار شود، ممکن است rack ناپایدار شود.

 

برای کاهش خطر برق گرفتگی یا آسیب رساندن به تجهیزات:

  • شاخه اتصال به زمین سیم برق را غیرفعال نکنید. این شاخه یک ویژگی مهم ایمنی است.
  • همانند توصیه بالا، سیم برق را نیز به یک پریز برق اتصال به زمین متصل کنید که همچنین در همه زمان ها به راحتی قابل دسترسی است.
  • در هنگام نیاز به قطع تجهیزات، سیم برق را از منبع تغذیه جدا کنید تا برق آنها به طور کامل قطع شود.
  • سیم برق را در مسیری که ممکن است وسایلی روی آن قرار گیرد و یا تحت فشار قرار گیرد، قرار ندهید. توجه ویژه ای به پلاگین ها، پریز برق و نقطه گسترش سیم از ناحیه سرور داشته باشید.

شاخه اتصال به زمینِ کابل برق و همچنین ورودی اتصال به زمین پریز آن باید حتماً فعال باشند.

شاخه اتصال به زمینِ کابل برق و همچنین ورودی اتصال به زمین پریز آن باید حتماً فعال باشند.

 

برای کاهش خطر صدمه شخصی یا آسیب رساندن به تجهیزات:

  • الزامات بهداشتی و ایمنی شغل خود و دستورالعمل های مربوط به فعالیت های یدی را رعایت کنید.
  • برای بلند کردن و تثبیت شاسی در هنگام نصب یا برداشتن، از کمک کافی برخوردار شوید.
  • سرور وقتی روی ریل ها بسته نشود ناپایدار است.
  • هنگام نصب سرور در یک رک، منابع تغذیه و هر ماژول قابل جابجایی دیگر را بردارید تا وزن کلی محصول کاهش یابد.

 

نکات احتیاطی:

برای تهویه مناسب سیستم، کاربر باید حداقل 7.6 سانتی متر (3.0 اینچ) فاصله در قسمت جلو و عقب سرور ایجاد کند.

سرور به گونه ای طراحی شده است که از نظر الکتریکی دارای اتصال به زمین باشد. برای اطمینان از عملکرد مناسب، سیم برق AC را فقط به یک پریز برق متصل به زمین متصل کنید.

 

تخلیه الکترواستاتیکی

از اقدامات احتیاطی که کاربر باید هنگام تنظیم سیستم یا کار با اجزای سازنده آن (component) انجام دهد، آگاه باشید. تخلیه الکتریسیته ساکن از انگشت یا رساناهای دیگر (هادی ها) ممکن است به بوردهای سیستم یا سایر دستگاه های حساس آسیب برساند. این نوع آسیب ممکن است طول عمر سیستم یا مولفه ها را کاهش دهد.

 

برای جلوگیری از آسیب الکترواستاتیک:

  • با حمل و نگهداری محصولات در ظروف فاقد استاتیک از تماس دست خودداری کنید.
  •  
  • قطعات حساس به الکترواستاتیک را تا زمانی که به ایستگاه های کاری بدون استاتیک برسند، در ظروف خود نگه دارید.
  •  
  • قبل از برداشتن قطعات از ظروف، آنها را روی سطح زمین قرار دهید.
  •  
  • از لمس پین ها، لیدها یا مدارها خودداری کنید.
  •  
  • دقت کنید که همیشه هنگام لمس یک component یا مجموعه حساس به استاتیک به درستی در حال اتصال به زمین باشید. هنگام دست زدن یا نصب قطعات حساس به الکترواستاتیک، از یک یا چند روش زیر استفاده کنید:
    •  
    • از یک مچ بند که با سیم اتصال به زمین به یک ایستگاه کاری (work station) یا شاسی رایانه ای (computer chassis) که خود به زمین متصل شده است، استفاده کنید. برای ایجاد اتصال به زمین مناسب ، بند را به راحتی به پوست ببندید.
    •  
    • در ایستگاه های کاری ایستاده (standing workstations) از بندهای پاشنه (heel straps)، بند انگشتان پا (toe straps)، یا بند بوت استفاده کنید. هنگام ایستادن روی کف های رسانا یا تشک های کف، بندها را روی هر دو پا بپوشید.
    •  
    • از ابزار خدمات میدانی رسانا استفاده کنید.
    •  
    • از یک کیت سرویس میدانی قابل حمل به همراه تشک کاری تاشو با استاتیک پراکنده (static-dissipating) استفاده کنید.
دستبند ضد استاتیک از یک مچ بند که با سیم اتصال به زمین به یک ایستگاه کاری (work station) یا شاسی رایانه ای (computer chassis) که خود به زمین متصل شده است، استفاده کنید.

اگر کاربر هیچ یک از تجهیزات پیشنهادی برای اتصال به زمین مناسب را ندارد، از فروشنده بخواهید قطعه را نصب کند.

برای کسب اطلاعات بیشتر در مورد الکتریسیته ساکن یا کمک به نصب محصول، با یک آداک فن آوری مانیا تماس بگیرید.



جمع آوری اطلاعات نشانه ای (symptom)

قبل از عیب یابی مشکل سرو، اطلاعات مربوط به علائم زیر را جمع آوری کنید:

  • آیا سرور روشن می شود؟
  • آیا سرور POST را کامل می کند؟
    • اگر نه، پس LED های سرور چه چیزی را نشان می دهند؟ کدام LED ها روشن می شوند؟ کدام LED ها روشن می شوند، اما چشمک نمی زنند؟ کدام LED ها چشمک می زنند و با چه سرعتی چشمک می زنند؟ LED چه رنگی است؟ آیا LED ها هماهنگ چشمک می زنند؟
    • آیا video display در دسترس است؟
    • اگر سرور POST را کامل میکند و video در دسترس می باشد، آیا پیام خطای POST وجود دارد؟ متن پیام خطای POST را همانطور که نشان داده شده ضبط کنید.

در هنگام آماده سازی عیب یابی چک کنید که یا سرور POST را کامل می کند؟در هنگام آماده سازی برای عیب یابی سرور، چک کنید که یا سرور POST را کامل می کند؟

 

  • آیا سرور با موفقیت یک سیستم عامل یا hypervisor را بوت می کند؟ در غیر این صورت ، آیا سرور علائم زیر را نشان می دهد و علائم زیر در چه مرحله ای رخ داده است؟
    • یک استثنا machine check اصلاح نشدنی.
    • خطای توقف یا صفحه آبی (ویندوز)
    • صفحه تشخیصی بنفش (Linux)
    • وحشت هسته لینوکس (kernel panic)
    • هنگ سیستم
    • مسدودی سیستم (system freeze)
  • اگر پس از نصب سیستم عامل این مشکل رخ داد:
    • آیا هنگام بارگیری برنامه جدید این مسئله رخ می دهد؟
    • در هنگام بروز اشکال در عملکرد سیستم، سرور چه علائمی از خود نشان داد؟ (به عنوان مثال ، آیا سرور مجدداً راه اندازی شده است؟ آیا کدهای LED ، گزارش سلامت یا پیام روی صفحه وجود دارد؟)
  • آیا نشانه هایی وجود دارد که نشان دهد این سوء عملکرد به عنوان خطای حافظه ، خطای PCI یا موارد دیگر گزارش شده است؟ اکنون پردازنده ها شامل کنترل کننده حافظه (memory controller) و کنترل کننده PCI Express است، بنابراین ممکن است خطاهای موجود در مناطق دیگر به نقص عملکرد پردازنده مربوط شود.
  • چه زمانی این مسئله پیش آمد؟ دقیقاً هنگام وقوع مسئله را ضبط کنید (تاریخ و زمان را وارد کنید). اگر بیش از یک بار اتفاق افتاد ، لیستی از تمام علائم را برای هر یک از موارد نگه دارید.
  • چه اتفاقاتی قبل از شکست فرآیند (failure) رخ داده است؟ بعد از کدام مراحل مسئله پیش می آید؟
  • از آخرین زمانی که سرور درست کار می کرد، چه تغییراتی انجام شده است؟
  • آیا اخیراً سخت افزار یا نرم افزار اضافه یا حذف شده است؟ در این صورت در صورت لزوم، تنظیمات مناسب در ابزار راه اندازی سرور (server setup utility) تغییر کردند؟
  • چه مدت است که سرور علائم مربوط به مشکل را نشان می دهد؟
  • اگر مسئله به طور تصادفی رخ دهد ، مدت زمان یا تناوب آن چقدر است؟
  • چه چیزی بر اساس گزارش رویداد iLO یا IML شکست خورده است؟



آماده سازی سرور برای تشخیص

  1. مطمئن شوید که سرور در محیط کار مناسب با قدرت کافی (adequate power)، تهویه مطبوع و کنترل رطوبت قرار دارد.
  2. هر پیام خطایی را که سیستم نشان می دهد را ضبط کنید.
  3. تمام CD-ROM ها، DVD-ROM ها، کلیدهای درایو USB یا کارت های SD را که دستگاه های bootable  نیستند، بردارید.
  4. تمام ابزارهای لازم را برای عیب یابی مانند پیچ ​​گوشتی Torx ، آداپتورهای حلقه ای، بند مچ دست ESD و برنامه های نرم افزاری جمع آوری کنید.
    1. باید نرم افزار پشتیبانی مناسب روی سرور نصب شود. برای تأیید پیکربندی سرور ، به صفحه اصلی مدیریت سیستم متصل شوید و ابزار کنترل نسخه را انتخاب کنید. VCA لیستی از نامها و نسخه های تمام درایورهای نصب شده Hewlett Packard Enterprise ، پیشکارهای مدیریت (Management Agents)، برنامه های کاربردی و همچنین موجود بودن آنها را ارائه می دهد.
    2. Hewlett Packard Enterprise توصیه می کند به مستندات سرور دسترسی داشته باشید.
  5. تعیین اینکه سرور بصورت آفلاین یا آنلاین عیب یابی شود:
    1. اگر کاربر سرور را به صورت آنلاین تشخیص می دهد، مراحل 6 و 8 را کامل کنید.
    2. اگر کاربر سرور را به صورت آفلاین تشخیص داد، مراحل 7 و 8 را کامل کنید.
  6. برای تشخیص سرور بصورت آنلاین ، اطلاعات زیر را بررسی و جمع آوری کنید:
    1. با اجرای CONREP از Scripting Toolkit برای ویندوز و لینوکس، رکوردی از تمام تنظیمات فعلی ROM بدست آورید.
    2. IML را مرور کنید.
    3. اطلاعات iLO را هم در صفحه Overview و هم در صفحه System Information مرور کنید.
    4. صفحه Diagnostics را مرور کنید.
    5. اگر سیستم عامل در حال کار است و صفحه اصلی مدیریت سیستم (System Management Homepage) نصب شده است، وضعیت عملیاتی را از صفحه اصلی مدیریت سیستم بررسی کنید.
    6. برای مشاهده مستندات Active Health System Viewer اینجا را کلیک کنید.
    7. ثبت داده های نظرسنجی.
  7. برای تشخیص آفلاین سرور ، سرور و دستگاه های جانبی را خاموش کنید. در صورت امکان ، همیشه یک خاموش کردن منظم را انجام دهید:
    1. از هر برنامه ای خارج شوید.
    2. از سیستم عامل خارج شوید.
    3. سرور را خاموش کنید.
  8. هرگونه دستگاه جانبی را که برای آزمایش مورد نیاز نیست، قطع کنید (هر دستگاهی که برای تأمین انرژی سرور لازم نیست).



دستورالعمل های عیب یابی پردازنده

توجه: هنگام کاهش سرور به حداقل تنظیمات برای عیب یابی، پردازنده های اضافی را حذف نکنید. پردازنده و هیت سینک ها برای تعمیر توسط خود مشتری در نظر گرفته نشده اند. پردازنده و هیت سینک توسط یک ارائه دهنده خدمات مجاز باید برداشته و جایگزین شود. در این مورد با آداک فن آوری مانیا تماس بگیرید.

بنابراین قبل از انجام مراحل عیب یابی که پردازنده ها را درگیر می کند، دستورالعمل های زیر را مرور کنید:

  • مطمئن باشید که فقط افراد مجاز مراحل عیب یابی را که شامل نصب، حذف یا تعویض پردازنده است را انجام می دهند.
  • همیشه قبل از اینکه یک ارائه دهنده خدمات مجاز پردازنده را حذف یا جایگزین کند، سایر مراحل عیب یابی دیگر را انجام دهید.

 

رساندن سرور به حداقل پیکربندی سخت افزار

توجه: دوباره تأکید می کنیم که هنگام کاهش سرور به حداقل تنظیمات برای عیب یابی ، پردازنده های اضافی را حذف نکنید. 

در طی فرایند عیب یابی ، ممکن است از کاربر خواسته شود تا سرور را به حداقل پیکربندی سخت افزار تقسیم کند. حداقل پیکربندی فقط از اجزای مورد نیاز برای راه اندازی سرور و عبور موفقیت آمیز POST تشکیل شده است. در صورت درخواست سرور برای حداقل پیکربندی، در صورت وجود نصب اجزای زیر، آنها را حذف نصب کنید:

  1. در صورت درخواست سرور به حداقل تنظیمات ، در صورت نصب ، مولفه های زیر را حذف نصب کنید:
    • کلیه فن های اضافی خنک کننده.
    • کلیه منابع تغذیه اضافی (یک مورد را نصب کنید).
    • همه درایوهای سخت و درایوهای SSD ها.
    • همه درایوهای نوری (DVD-ROM ، CD-ROM و غیره).
    • تمام کارتهای mezzanine  اختیاری.
    • همه کارت های توسعه (expansion boards).
  2. اگر نمی توان با حداقل پیکربندی بالا مسئله را حل کرد، تعداد DIMM های مرتبط را برای هر پردازنده به حداقل ممکن برسانید و باقی را حذف کنید.





به اشتراک بگذارید :

ترجمه: حمیدرضا عباسی / آداک فن آوری مانیا

منبع: وبسایت رسمی شرکت HPE

  • آدرس دفتر مرکزی: تهران، بلوار نلسون ماندلا (آفریقا)، خ فرزان شرقی، پ 33

  • تلفن ویژه: 43672 (9821+) 88193969 (9821+)
  • ایمیل: info@mania-co.com