VDP: [001] The most recent checkpoint for the VDP appliance is outdated

Автор: Admin | 15.12.2014

Исправление ошибки VDP: [001] The most recent checkpoint for the VDP appliance is outdated на vSphere Data Protection 5.5

Ошибка почти не гуглится. Информацию удалось найти только на двух ресурсах — в базе знаний VmWare и руководстве по администрирования VDP, где сказано что надо всего-лишь:

From the Configuration tab of the VDP user interface, click the All Actions icon and select “Run integrity check.”

т.е. они говорят: нажми сюда и все починится

Run integrity check

но это не помогает. Возникает другая ошибка, которая, к сожалению, у меня не сохранилась.
Адекватная же информация нашлась в нескольких блогах на английском, французском и еще на английском. Видно, что статьи являются кальками друг друга.
Данная же заметка сыровата от нежелания намеренного повторения подобной ошибки и, как следствие, не полного выяснения причин возникновения данной ситуации. По сути, это просто следование советам в вышеназванных блогах.

Итак:
Зайти по ssh под рутом, затем остановить DPN (Data Protection Network):

dpnctl stop

Identity added: /home/dpn/.ssh/dpnid (/home/dpn/.ssh/dpnid)
dpnctl: INFO: Suspending backup scheduler...
dpnctl: INFO: Backup scheduler suspended.
dpnctl: INFO: Checking for active checkpoint maintenance...
dpnctl: INFO: Waiting for checkpoint maintenance to complete...
dpnctl: INFO: Terminating hfs integrity maintenance (hfscheck)...
dpnctl: INFO: Shutting down MCS...
dpnctl: INFO: MCS shut down.
dpnctl: INFO: Shutting down gsan...
dpnctl: INFO: gsan shut down.
dpnctl: INFO: Shutting down axionfs...
dpnctl: INFO: axionfs shut down.

Посмотреть смонтированные разделы, для обнаружения нужных (выделил из красным):

mount

/dev/sda2 on / type ext3 (rw,acl,user_xattr)
proc on /proc type proc (rw)
sysfs on /sys type sysfs (rw)
debugfs on /sys/kernel/debug type debugfs (rw)
udev on /dev type tmpfs (rw,mode=0755)
tmpfs on /dev/shm type tmpfs (rw,mode=1777)
devpts on /dev/pts type devpts (rw,mode=0620,gid=5)
/dev/sda1 on /boot type ext3 (rw,acl,user_xattr)
/dev/sda7 on /var type ext3 (rw,acl,user_xattr)
/dev/sda9 on /space type ext3 (rw,acl,user_xattr)
/dev/sdb1 on /data01 type xfs (rw,noatime)
/dev/sdc1 on /data02 type xfs (rw,noatime)
/dev/sdd1 on /data03 type xfs (rw,noatime)
fusectl on /sys/fs/fuse/connections type fusectl (rw)
none on /proc/sys/fs/binfmt_misc type binfmt_misc (rw)

Отмонтировать эти разделы:

umount /data01
umount /data02
umount /data03

Запустить на каждом из чекдиск:

xfs_check /dev/sdb1
xfs_check /dev/sdc1
xfs_check /dev/sdd1

Как закончит чекать примонтировать их обратно:

mount -a

Убедиться что они примонтировались можно повторив команду mount.
Запустить все сервисы

dpnctl start all

Identity added: /home/dpn/.ssh/dpnid (/home/dpn/.ssh/dpnid)
dpnctl: INFO: Checking that gsan was shut down cleanly...
dpnctl: INFO: Restarting the gsan (this may take some time)...
dpnctl: INFO: To monitor progress, run in another window: tail -f /tmp/dpnctl-gsan-restart-output-18283
dpnctl: WARNING: 1 warning seen in output of "/usr/bin/yes no | /usr/local/avamar/bin/restart.dpn"
/bin/date: invalid date `2014-12-01 13:38:34 YEKT'
dpnctl: ERROR: 2 errors seen in gsan error logs:
- - - - - - - - - - - - - - - - - - - - BEGIN
(0.0) 2014/11/11-10:52:21.76359 {0.0} [sched.cp:3169] ERROR: failed checkpoint maintenance with error MSG_ERR_SHUTDOWN
(0.0) 2014/11/18-02:41:41.19846 {0.0} [cprecovery:165] ERROR: stripedns::validateandupdatediskstats bool check name=device count value=newcount=1 oldcount=3
- - - - - - - - - - - - - - - - - - - - END

dpnctl: WARNING: 21 warnings seen in gsan error logs:
- - - - - - - - - - - - - - - - - - - - BEGIN
(0.0) 2014/11/13-08:25:12.22526 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1771.47 limit=177.1468 mbpersec=149.03
(0.0) 2014/11/13-08:30:12.24005 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1771.47 limit=177.1468 mbpersec=144.46
(0.0) 2014/11/13-08:35:12.21806 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1771.47 limit=177.1468 mbpersec=132.79
(0.0) 2014/11/13-09:30:12.23585 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1787.80 limit=178.7804 mbpersec=154.90
(0.0) 2014/11/13-09:35:12.23963 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1787.80 limit=178.7804 mbpersec=119.85
(0.0) 2014/11/13-09:40:19.25702 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1787.80 limit=178.7804 mbpersec=126.39
(0.0) 2014/11/13-10:35:12.23269 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1804.09 limit=180.4094 mbpersec=143.75
(0.0) 2014/11/13-10:40:12.22516 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1804.09 limit=180.4094 mbpersec=117.22
(0.0) 2014/11/13-10:45:12.23327 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1804.09 limit=180.4094 mbpersec=108.77
(0.0) 2014/11/13-11:40:12.25110 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1818.01 limit=181.8010 mbpersec=124.45
(0.0) 2014/11/13-11:45:12.23677 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1818.01 limit=181.8010 mbpersec=157.86
(0.0) 2014/11/13-11:50:12.23935 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1818.01 limit=181.8010 mbpersec=124.05
(0.0) 2014/11/13-12:50:12.23404 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1828.08 limit=182.8076 mbpersec=146.61
(0.0) 2014/11/13-12:55:12.27113 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1828.08 limit=182.8076 mbpersec=115.78
(0.0) 2014/11/13-13:00:12.23995 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1828.08 limit=182.8076 mbpersec=113.19
(0.0) 2014/11/13-13:50:12.24303 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1845.50 limit=184.5501 mbpersec=176.76
(0.0) 2014/11/13-13:55:12.25088 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1845.50 limit=184.5501 mbpersec=138.60
(0.0) 2014/11/13-14:00:12.26031 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1845.50 limit=184.5501 mbpersec=139.57
(0.0) 2014/11/13-14:05:12.25362 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1845.50 limit=184.5501 mbpersec=119.60
(0.0) 2014/11/13-15:00:12.24554 {0.0} [perfbeat.0:166] WARN: perfbeat::outoftolerance mask=[] average=1857.30 limit=185.7302 mbpersec=110.22
2114 warnings were omitted after 20 warnings were seen
- - - - - - - - - - - - - - - - - - - - END

dpnctl: INFO: Restarting gsan succeeded.
dpnctl: INFO: gsan started.
dpnctl: INFO: Starting MCS...
dpnctl: INFO: To monitor progress, run in another window: tail -f /tmp/dpnctl-mcs-start-output-18283
dpnctl: INFO: MCS started.
dpnctl: INFO: Resuming backup scheduler...
dpnctl: INFO: Backup scheduler resumed.
dpnctl: INFO: Starting axionfs...
dpnctl: INFO: To monitor progress, run in another window: tail -f /tmp/dpnctl-axionfs-start-output-18283
dpnctl: INFO: axionfs started.
dpnctl: INFO: [see log file "/usr/local/avamar/var/log/dpnctl.log"]

Выдал 2114 одинаковых варнингов (ошибка висела около двух недель до починки).

Далее надо остановить maintenance scheduler:

dpnctl stop maint

Identity added: /home/dpn/.ssh/dpnid (/home/dpn/.ssh/dpnid)
dpnctl: INFO: Suspending maintenance windows scheduler...

Вручную создать новый чекпоинт :

avmaint checkpoint --ava
 <?xml version="1.0" encoding="UTF-8" standalone="yes"?>
 <checkpoint
 tag="cp.20141201075912"
 isvalid="false"/>

И принудительно запустить полную проверку:

avmaint hfscheck --full --ava
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<hfscheck
  checkpoint="cp.20141201074759"
  status="waitcgsan"
  type="full"
  checks="full"
  elapsed-time="104"
  start-time="1417420098"
  end-time="0"
  check-start-time="0"
  check-end-time="0"
  generation-time="1417430476"
  percent-complete="0.00">
  <hfscheckerrors/>

После запуска проверки в vSphere Client стартануло задание VDP: Integrity Check, процесс шел почти три часа при объеме стораджа 2TB. Что и видно по выводу: (1417430476-1417420098)/60/60=2,88 часа.

Посмотреть статус выполнения проверки можно следующей командой:

avmaint hfscheckstatus --ava

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<hfscheckstatus
  nodes-queried="1"
  nodes-replied="1"
  nodes-total="1"
  checkpoint="cp.20141201074759"
  status="hfscheck"
  phase="datasweep"
  type="full"
  checks="full"
  elapsed-time="10337"
  start-time="1417420098"
  end-time="0"
  check-start-time="1417432087"
  check-end-time="0"
  generation-time="1417430476"
  stripes-checking="3859"
  stripes-completed="933"
  minutes-to-completion="160"
  percent-complete="20.05">
  <hfscheckerrors/>
</hfscheckstatus>

 

Убедившись, что статус выполнения станет percent-complete="100.00" запустить DPN:

dpnctl start maint

В общем-то все, ошибка должна исчезнуть.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *