Bu yazımda sizlere karşılaştığım ilginç bir hatayı paylaşacağım. Başınıza gelme ihtimali düşükte olsa konuyu bilmekte fayda var diye düşünmekteyim.
Şöyle ki; gün içerisinde aynı anda birçok uygulamamızın bağlı olduğu Always On çalışan SQL serverler aynı anda secondary replikalar ile haberleşmesini kaybetti. Always on dashboard’dan başlayarak sql taraflı kontrolleri yaptık. Secondary SQL node’u kopmuş ve “Availability replika disconnected” hatasının veriyordu.(Hatanın genel çözümüne dair yazımıza linkten ulaşabilirsiniz.(GÖRSEL-1) (https://www.veritabani.org/availability-replica-is-disconnected-hatasi/) Bu hataya dair kontrolleri yaptık. Replica konfigürasyonunda uygun olmayan bir durum yoktu.
GÖRSEL-1
DMV’ler, kullanıcılar, yetkiler, sql servis kullanıcıları, aklınıza ne geliyorsa her yerden sql ve cluster kontrolü yaptık. Windows Failover cluster’ı kontrol ettiğimizde ise secondary replika clusterının down olduğunu fark ettik.(GÖRSEL-2). SQL cluster, windows cluster’ın çatısı altında çalıştığı için always on replike olamıyordu. Primary ve secondary replikalar arasında ping attığımızda herhangi bir sorun yaşanmamasında rağmen primary ve secondary node’lar arasında cluster haberleşmesi yapamıyordu.
GÖRSEL-2
Önce firewall engellemelerini kontrol ettik, engelleme yoktu. Hatta primary ve secondary makineler arasında any-any yetkisine kadar işi ilerlettik ancak haberleşmede engelleme yoktu. Sorunun failover cluster tarafında olduğu artık kesin gibiydi. Power Shell scriptleri ile down olan node’u ayağa kaldırmaya çalışmakta işe yaramadı. Manuel bir şekilde node ayağa kalkmıyordu. Sorun SQL’den bağımsız bir hale geldi. SQL updateler ve Windows updateler ile gelen policylere kadar işi ilerlettik ancak yine de bir sonuç alamadık. Tüm haberleşmeleri kontrol ettik gayet stabildi. Availability replika portu 5022’den kontrolleri sağladık yine bir sıkıntı görünmemekteydi.
Daha sayamadığım bir çok şey denememize rağmen secondary node windows failover cluster bir türlü ayağa kalkmıyordu. Bundan dolayı da Always on data eşitlemesi de geride kalmıştı.
Failover cluster üzerinde sorun ararken, problemin WSCF eşitleme dosyasında olduğunu tespit ettik. Sorun Windows failover cluster’ın heartbeat haberleşmesini kaybetmesi sonucu WSCF eşitlemesini yapamamasında ötürü kaynaklanıyordu.
Çözüme geçecek olursak;
1.ADIM: Tüm node’larda cluster servisleri durdurup disable’a çekiyoruz. (GÖRSEL-3)
GÖRSEL-3
2.ADIM: Her node’da bulunan windows failover cluster manager’a ait bir dosya var. C:\Windows\Cluster dosyasının içerisinde ‘CLUSDB’ isminde uzantısı olmayan bir dosya. Bu dosya bir anlamda windows cluster’ın database dosyası. Bu dosyayı ‘UP’ durumda olan bir cluster’dan kopyalayıp ‘DOWN’ olan cluster’larda aynı yola yapıştırdık(Yapıştırmadan önce DOWN node’un CLUSDB dosyasını yedekledik). Bu dosya kopyalama işlemi ile aslında heartbeat’leri eşitlemiş oluyoruz.
GÖRSEL-4
3.ADIM: Son olarak failover cluster servisini restart ediyoruz. (GÖRSEL-5)
GÖRSEL-5
Sıkıntılı olan node’un ayağa kalktığını görüyoruz. (GÖRSEL-6)
GÖRSEL-6
Yaşanan network kesintisinin; ağ trafiğinde meydana gelen yüksek trafik sonucu olduğu anladık. Windows Failover cluster, CLUSDB dosyası üzerinde heartbeat haberleşmesi ve eşitlemesi yapıyor. Bu yüksek trafikte bu eşitlemeyi yapamayan node’un geri kaldığı için down oluyor.
Buradaki heartbeat tam olarak aynı olmamakla birlikte always on heartbeat mantığı ile çalışıyor. ÖZETLE; Ayakta ve güncel olan node’un CLUSDB dosyasını down olan node’a kopyaladığımızda da sorunumuz çözülmüş oluyor.
SON NOT: Windows cluster ayağa kalktıktan sonra geri de kalan secondary sql node’ları resume etmeyi unutmayalım.
Kaynaklar:
https://www.altaro.com/backup-dr/clusdb-backup-recovery/
Oğuzhan şahin 7 Nisan 2024
Merhaba
Aynı sorun bende de oldu, server 1 node down görünüyor, server 2 clusdb kopyaladım ama çalışmadı, server2 cluster stop olduğu zaman server1 node up oluyor, yardımlarınız için teşekkür ederim 05446341038