oVirt FC Storage - LUN в статусе Down - ВМ в статусе not responding
oVirt FC Storage - LUN в статусе Down - ВМ в статусе not responding
Всем привет
Овирт 3.5
Не понятное состояние LUN в списке LUN'ов во вкладке Storage.
Само меню очень долго открывается, при этом на SPM хосте почти все ВМ переходят в статус "is not responding" и появляется значок вопроса на самих ВМ, но по факту эти ВМ доступны, плюс все LUN во вкладке Storage могут перейти в статус Down.
Сами ВМ расположены не на проблемном LUN.
Хранилка на этот раздел не ругается.
Это один раздел из 3-х лунов.
Поскажите, что это может быть?
Овирт 3.5
Не понятное состояние LUN в списке LUN'ов во вкладке Storage.
Само меню очень долго открывается, при этом на SPM хосте почти все ВМ переходят в статус "is not responding" и появляется значок вопроса на самих ВМ, но по факту эти ВМ доступны, плюс все LUN во вкладке Storage могут перейти в статус Down.
Сами ВМ расположены не на проблемном LUN.
Хранилка на этот раздел не ругается.
Это один раздел из 3-х лунов.
Поскажите, что это может быть?
Re: FC storage, статус LUN
Может быть что угодно, даже давно исправленный баг. 3.5 это очень старая версия
Re: FC storage, статус LUN
Вопрос перехода на новую версию стоит.
Как это лучше сделать? Просто в новой инсталляции импортировать FC раздел от версии 3.5 ?
Как это лучше сделать? Просто в новой инсталляции импортировать FC раздел от версии 3.5 ?
Re: FC storage, статус LUN
емнип можно проапгрейдиться до последней 3.6 а потом перетащить все на 4.2, мануалы есть на офсайте
Re: FC storage, статус LUN
А просто импортировать сторадж от 3.5 в новой инсталяции Овирт не проще будет ?
Так быстрее будет.
Так быстрее будет.
Re: FC storage, статус LUN
будет и быстрее и проще, но надо будет заново создавать сети и все остальное. И как минимум до 3.6, перед переносом доменов я бы проапгрейдился
Re: FC storage, статус LUN
В продолжение темы.
Вчера поймал сплитбрейн. Всё по тойже причине с хранилищем.
Т.е. любые действия с FC стореджами приводят к непредсказуемому поведению хостов.
Например вчера пытался перевести пустой сторедж в режим обслуживания, долго статус висел на "preparing for maintance". В итоге сначало отвалилися один из хостов попричине потери линка к хранилищу, потом Овирт вообще потерял его из виду. При этом все ВМ на проблемном хосте стали статус типа unknown. Спустя время после автоматического возвращения хоста вработу, тоже самое произошло и сдругим хостом.
Во время этих качелей ВМ, стали мигрироваться. Когда всё успокоилось и хосты отпустило, то заметил, что на хостах запущены одинаковые копии ВМ и писали они все естественно в один lvm лун ВМ. И сам Овирт, показывал, что ВМ'ки запущены то на одном хосте то на другом. Плюс наплодились какие-то призрачные ВМ external-<имя ВМ>.
В итоге я погасил все дубли ВМ и начал запускать заново.
Линуксовые ВМ вываливались с ошибкой в ФС, пришлось чекаит их с fsck.
Вендовые запустились нормально.
Хочу заметить, что Fencing был выключен. Потомучто переодически проскакивали пробемы о потери Овиртом хостов изза проблем в сети, хотя они были доступны и по политике Fence, Овирт их вырубал.
Вчера поймал сплитбрейн. Всё по тойже причине с хранилищем.
Т.е. любые действия с FC стореджами приводят к непредсказуемому поведению хостов.
Например вчера пытался перевести пустой сторедж в режим обслуживания, долго статус висел на "preparing for maintance". В итоге сначало отвалилися один из хостов попричине потери линка к хранилищу, потом Овирт вообще потерял его из виду. При этом все ВМ на проблемном хосте стали статус типа unknown. Спустя время после автоматического возвращения хоста вработу, тоже самое произошло и сдругим хостом.
Во время этих качелей ВМ, стали мигрироваться. Когда всё успокоилось и хосты отпустило, то заметил, что на хостах запущены одинаковые копии ВМ и писали они все естественно в один lvm лун ВМ. И сам Овирт, показывал, что ВМ'ки запущены то на одном хосте то на другом. Плюс наплодились какие-то призрачные ВМ external-<имя ВМ>.
В итоге я погасил все дубли ВМ и начал запускать заново.
Линуксовые ВМ вываливались с ошибкой в ФС, пришлось чекаит их с fsck.
Вендовые запустились нормально.
Хочу заметить, что Fencing был выключен. Потомучто переодически проскакивали пробемы о потери Овиртом хостов изза проблем в сети, хотя они были доступны и по политике Fence, Овирт их вырубал.
Re: FC storage, статус LUN
Повторюсь - версия очень старая.
Дальше, при отключенном фенсинге, который является основным SBA-механизмом, поймать сплитбрейн у удивляться этому как-то странно, вам не кажется?
Вообще, надо конечно разобраться что там происходит, так тормозить оно не должно. Например элементарный multipath -ll на SPM отрабатывает быстро? А rescan HBA?
Дальше, при отключенном фенсинге, который является основным SBA-механизмом, поймать сплитбрейн у удивляться этому как-то странно, вам не кажется?
Вообще, надо конечно разобраться что там происходит, так тормозить оно не должно. Например элементарный multipath -ll на SPM отрабатывает быстро? А rescan HBA?
Re: FC storage, статус LUN
Честно говоря уже боюсь пока что-то делать. Второй блекаут не простят ).
Кстате сразу такой вопрос:
Нужно смигрировать ВМ'ки на другой кластер, понятно, что экспорт/импорт FC стораджа не вариант уже.
Хочу сделать это через Export сторадж.
Если сделаю снепшот с рабочей ВМ, в это время ФС ВМ замораживается, далее на основе этого снепшота получится сделать клон этой ВМ или лучше делать на выключенной ВМ ?
Кстате сразу такой вопрос:
Нужно смигрировать ВМ'ки на другой кластер, понятно, что экспорт/импорт FC стораджа не вариант уже.
Хочу сделать это через Export сторадж.
Если сделаю снепшот с рабочей ВМ, в это время ФС ВМ замораживается, далее на основе этого снепшота получится сделать клон этой ВМ или лучше делать на выключенной ВМ ?
Re: FC storage, статус LUN
> Честно говоря уже боюсь пока что-то делать
ну простую диагностику провести можно, может там проблема со стореджем/hba/fabric/fc switch а не в овирте.
> понятно, что экспорт/импорт FC стораджа не вариант уже
если сторедж в порядке, то почему бы и нет?
> Если сделаю снепшот с рабочей ВМ, в это время ФС ВМ замораживается, далее на основе этого снепшота получится сделать клон этой ВМ или лучше делать на выключенной ВМ ?
самое лучшее - на выключенной, тогда не будет сюрпризов. Но в принципе, если клонировать из снепшота, то обращение идет к не рабочему диску а его родителю, так что все отработает. Просто неизвестно чего наделают пользователи в машине над снепшотом за время переноса
ну простую диагностику провести можно, может там проблема со стореджем/hba/fabric/fc switch а не в овирте.
> понятно, что экспорт/импорт FC стораджа не вариант уже
если сторедж в порядке, то почему бы и нет?
> Если сделаю снепшот с рабочей ВМ, в это время ФС ВМ замораживается, далее на основе этого снепшота получится сделать клон этой ВМ или лучше делать на выключенной ВМ ?
самое лучшее - на выключенной, тогда не будет сюрпризов. Но в принципе, если клонировать из снепшота, то обращение идет к не рабочему диску а его родителю, так что все отработает. Просто неизвестно чего наделают пользователи в машине над снепшотом за время переноса