Exchange CCR – Проблема с SAN.

ccr Многие компании для построения отказоустойчивых решений в области организации системы почтовых сообщений используют возможности кластеризации. Одной из новых возможностей, появившихся в Exchange 2007, является непрерывная репликация кластера. Эта технология сочетающая асинхронную доставку журналов и технологию преобразования, встроенные в Exchange 2007, с обработкой отказа и средствами управления, предоставляемыми службой кластера, позволяет получить еще более надежную систему, избавляя ее от единой точки отказа. Но и при ее использовании попадаются подводные камни.

Зачастую, крупные компании используют в организации подобных решений внешнее хранилище SAN, связанное с нодами кластера при помощи Fiber Channel. Для связи с SAN система Windows Server 2003 использует Host Bus Adapter, который в свою очередь использует Microsoft StorPort Driver. При установке Windows Server 2003 SP1 в дефолтной конфигурации и дальнейшем использовании кластеризации Exchange возможны критические сбои в работе данного драйвера, приводящие к остановке репликации в лучшем, и полной деградации сервиса, в худшем случаях.

Симптомы:

1. В System Log могут появиться подобные предупреждения в достаточно большом количестве (в моем случае использовался контроллер фирмы Q-Logic, что задает Event Source, в зависимости от производителя контроллера это поле может различаться):

Event Type:       Warning

Event Source:   ql2300

Event Category:               None

Event ID:             129

Date:                    12.11.2008

Time:                    2:17:01

User:                    N/A

Computer:         EXCH-MBN1

Description:

Reset to device, \Device\RaidPort0, was issued.

Дальше — хуже.

Появляются события:
Event Type:       Error
Event Source:   Service Control Manager
Event Category:               None
Event ID:             7031
Date:                    12.11.2008
Time:                    2:18:51
User:                    N/A
Computer:         EXCH-MBN2
Description:
The Microsoft Exchange Replication Service service terminated unexpectedly.  It has done this 1 time(s).  The following corrective action will be taken in 5000 milliseconds: Restart the service.

Что, как Вы понимаете, говорит как раз об остановке Cluster Continuous Replication.

В подтверждение в ЕМС в разделе администрирования роли MailboxServer, в окне состояния Storage Groups Copy Status имеет значение Failed, хотя сами базы почтовых сообщений находятся в состоянии Mounted.

Ну и далее совсем невеселое:

Event Type:       Error

Event Source:   ClusSvc

Event Category:               Failover Mgr

Event ID:             1069

Date:                    12.11.2008

Time:                    2:43:43

User:                    N/A

Computer:         EXCH-MBN1

Description:

Cluster resource 'Exchange System Attendant Instance (EXCH-MB01)' in Resource Group 'EXCH-MB01' failed.

Мы потеряли ноду.

Что делать?

Microsoft утверждает, что данный казус возможен из-за неверной регистрации драйвера Storport.sys, входящего в состав SP1. Решение проблемы тут же прилагается в виде non-public hotfix.

Hotfix_icon Загрузка исправления доступна

Просмотр и запрос на загрузку исправления

В моем случае установка хотфикса помогла. Далее, читая о проблеме, наткнулся на еще более свежую версию данного хотфикса, включающую ссылки на сайт HP для владельцев Hewlett Packard (HP) ProLiant Smart Array.

Буду рад, если кому-то тоже поможет данное решение. Здоровья Вам и Вашему кластеру!

Реклама
Exchange CCR – Проблема с SAN.

Exchange CCR – Проблема с SAN.: 2 комментария

  1. Олег Крылов:

    Дополнительно к предпринятым действиям, в ситуации конкретно с QLogic 2300, рекомендую обновить драйвер контроллера, т.к. в поставке от вендора, у меня по крайней мере, он был от мая 2005 года.
    http://driverdownloads.qlogic.com/QLogicDriverDownloads_UI/SearchByOs.aspx?ProductCategory=39&OsCategory=1&Os=64&OsCategoryName=Windows&ProductCategoryName=Fibre%20Channel%20HBAs&OSName=Windows%20Server%202003%20(64-bit)

  2. Попробовал разобраться со статьей, но увы. Не могли бы вы написать свою аську или стукнуть мне — 911357

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

w

Connecting to %s