Monitorowanie Configuration Manager-a i monitory zachowujące się jak reguły (część 1)

 

Monitorowanie systemu Configuration Manager, służącego do zarządzania innymi systemami ma swoje ciemne strony. Oczywiście administrator tego systemu poprzez część Monitoring konsoli administracyjnej ma wgląd w wiele aspektów pracy systemu, jednak zewnętrze spojrzenie ze strony systemu monitorowania może być przydatne.

 

W praktyce okazuje się, że system monitorowania uporczywie oznacza jako „trwające w błędzie” składniki, które chociaż zanotowały błąd, to jednak powróciły do normalnego funkcjonowania. Robi to wrażenie, jakby część monitoringu stosowała po kryjomu reguły zamiast monitorów.

 

 

Bliższe sprawdzenie ujawnia, że mamy tu do czynienia z monitorami, lecz bardzo specyficznie skonstruowanymi. Przykładowo jeden z monitorów, którego konfiguracja pokazana jest poniżej, powinien zamykać alert po powrocie do normalnego stanu, czyli gdy ustaną przyczyny  wywołujące błąd:

 

 

Niestety, gdy spojrzymy na zakładkę Health przekonamy się, że automatycznie znaleźć się może monitor w stanie „złym” (Critical) – nie możemy liczyć, że sam się uzdrowi, ponieważ mamy tu jedynie „Manual Reset”:

 

 

 

Istotnie mamy więc do czynienia z monitorem, który w praktyce zachowuje się raczej jak reguła. Nie jest to sytuacja pożądana. Configuration Manager resetuje liczniki błędów o północy, zatem chwilowa utrata komunikacji z jakimś składnikiem systemu, która wywołuje zapis do logu, jest „wybaczona” najdalej po dobie, jednak Operations Manager trzyma ten stan nawet wiele dni po zakończeniu całej sprawy, pokazując tym samym fałszywy stan.

 

Czy dużo jest takich monitorów w obrębie Management Pack-a do Configuration Managera? Możemy to zbadać poleceniem:

 

PS C:\> (Get-SCOMManagementPack -Name „*ConfigurationManager.Monitoring” |Get-SCOMMonitor |Where {$_.OperationalStateCollection -like „*ManualReset*”}).count 16

 

Okazuje się więc, że mamy aż 16 takich monitorów, które w swoim zachowaniu naśladują reguły, co ciekawe w ich opisach często mamy do czynienia z określeniem „This rule”:

 

DisplayName Description
Component manager fails to access site system This rules generates alert if the compoenent manager on site server cannot access site system.
WSUS version mismatch This rule generates alert if the WSUS server version is not the required version
File Dispatch Manager Connection Monitor This monitor checks that the file dispatch manager can connect to and the site server.
Site component manager fails to update Active Directory objects This rule generates alerts if the site component manager fails to update objects in Active Directory.
Sender fails to connect to a remote site over LAN advanced security The rule generates alert when a sender fails to connect to a remote site over the LAN under advanced security.
Fail to execute system summary task This rule generates alert if system summary task fails
Management Point WINS unregistration monitor This monitor checks if the management point successfully unregister with the local WINS server
Distribution manager fails to access network This rule generates alert if the distribution manager on site server fails to access network abstraction layer
Site component manager fails to read Active Directory objects This rule generates alerts if the site component manager fails to read objects in Active Directory.
Fail to configure proxy setting on WSUS server This rule generates alert if the WSUS control manager fails to configure proxy setting on WSUS server
Site server fails to execute a maintenance task This rule generates alert if site server fails to execute a maintenance task.
State Migration Point HTTP Response Monitor This monitor checks if the state migration responds to HTTP requests, using the SMP_CONTROL_MANAGER.
This rule generates alert when the WSUS configuration manager fails to publish client to the WSUS server This rule generates an alert when the WSUS configuration manager fails to publish client to the WSUS server.
Auto-started component stopped unexpectedly This rule generates alert if the SMSExec detects an auto-started component is stopped unexpectedly.
Management Point WINS registration monitor This monitor checks if the management point successfully register with the local WINS server
Fail to subscribe to or get update categories and classification This rule generates alerts if the WSUS configuration manager failed to subscribe to or get update categories and classification on a WSUS server.

 

Jeżeli trudno nam pogodzić się z tym „regułopodobnym” zachowaniem niektórych monitorów, można wyłączyć je poprzez mechanizm Override, albo poczekać na następny artykuł, w którym opiszę, jak można zmienić zachowanie tych monitorów, nie rezygnując równocześnie z monitorowania zdarzeń, które one wyłapują.