Skip to content

smartctl -x на RAID-контроллере HP Smart Array E200i

Как-то раз на просторах ынтернета попался мне совет запустить smartctl с параметром -x.

Я, конечно, как всякий homo sapiens, сначала почитал man:

  1. -x, --xall
  2.      Prints all SMART and non-SMART information about the device. For ATA
  3.      devices this is equivalent to ´-H -i -g all -c -A -f brief
  4.      -l xerror,error -l xselftest,selftest -l selective -l directory
  5.      -l scttemp -l scterc -l devstat -l sataphy´.
  6.      and for SCSI, this is equivalent to
  7.      ´-H -i -A -l error -l selftest -l background -l sasphy´.

Не увидев там ничего стрёмного, выполнил вот такую командочку:

  1. # smartctl -x -a -d cciss,0 /dev/cciss/c0d0
  2. smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-642.13.1.el6.x86_64] (local build)
  3. Copyright (C) 2002-12 by Bruce Allen,
  5. /dev/cciss/c0d0 [cciss_disk_00] [SCSI]: Device open changed type from 'sat,auto' to 'cciss'
  6. Vendor:               SEAGATE
  7. Product:              ST91000640SS    
  8. Revision:             0001
  9. User Capacity:        1,000,204,886,016 bytes [1.00 TB]
  10. Logical block size:   512 bytes
  11. Logical Unit id:      0x5000c50025fd7283
  12. Serial number:        9XG02CLM00009126234W
  13. Device type:          disk
  14. Transport protocol:   SAS
  15. Local Time is:        Tue Jan 31 15:29:39 2017 UTC
  16. Device supports SMART and is Enabled
  17. Temperature Warning Enabled
  18. SMART Health Status: OK
  20. Current Drive Temperature:     22 C
  21. Drive Trip Temperature:        68 C
  22. Manufactured in week  of year 20
  23. Specified cycle count over device lifetime:  10000
  24. Accumulated start-stop cycles:  36
  25. Specified load-unload count over device lifetime:  300000
  26. Accumulated load-unload cycles:  36
  27. Elements in grown defect list: 3
  28. Vendor (Seagate) cache information
  29.   Blocks sent to initiator = 791069177
  30.   Blocks received from initiator = 8147385
  31.   Blocks read from cache and sent to initiator = 6510918
  32.   Number of read and write commands whose size <= segment size = 1294551
  33.   Number of read and write commands whose size > segment size = 0
  34. Vendor (Seagate/Hitachi) factory information
  35.   number of hours powered up = 37972.70
  36.   number of minutes until next internal SMART test = 12
  38. Error counter log:
  39.            Errors Corrected by           Total   Correction     Gigabytes    Total
  40.                ECC          rereads/    errors   algorithm      processed    uncorrected
  41.            fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
  42. read:    8169902        0         0   8169902          0       2604.051           0
  43. write:         0        0         0         0          0          4.359           0
  45. Non-medium error count:        1
  47. [GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']
  48. No self-tests have been logged
  49. Long (extended) Self Test duration: 12198 seconds [203.3 minutes]
  50. Segmentation fault (core dumped)

И... консолька замерла, связь с сервером пропала, пинга нет. Слава Хэнку, что сервер был не из production-кластера. И через пару минут самостоятельно поднялся.

При этом стоит отметить, что командочка smartctl -a -d cciss,0 /dev/cciss/c0d0 (то же самое, но без -x) там же пару минут ранее выполнялась несколько раз без каких-либо проблем. OS – CentOS 6.8 x86_64, RAID-контроллер HP Smart Array E200i.

Мораль: будьте осторожны со smartctl. Я предупредил.

Posted in *nix.

Tagged with , .

One Response

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

  1. депозитчик says

    Кстати, похоже на баг в firmware.
    Тут вот в обновлении прошивки

    написано, что пофиксили баг

    Problems Fixed:
    Running SMARTCTL (smartmontools) on HP Proliant G6/G7 (Px1x) Smart Array controllers that have firmware version 5.70 to 6.62 installed with SATA drives attached may result in system not responding or reboot. Wehn reboot occurred, a reboot 1719 POST error message with lockup 0x15 displayed.

You must be logged in to post a comment.