WINDOWS FAILOVER CLUSTER’DA BULUNAN NODE’UN DOWN OLMA DURUMU

Bu yazımda sizlere karşılaştığım ilginç bir hatayı paylaşacağım. Başınıza gelme ihtimali düşükte olsa konuyu bilmekte fayda var diye düşünmekteyim. Şöyle ki; gün içerisinde aynı anda birçok uygulamamızın bağlı olduğu Always On çalışan SQL serverler aynı anda secondary replikalar ile haberleşmesini kaybetti. Always on dashboard’dan başlayarak sql taraflı kontrolleri yaptık. Secondary SQL node’u kopmuş ve “Availability replika disconnected” hatasının veriyordu.(Hatanın genel çözümüne dair yazımıza linkten ulaşabilirsiniz.(GÖRSEL-1) (https://www.veritabani.org/availability-replica-is-disconnected-hatasi/) Bu hataya dair kontrolleri yaptık. Replica konfigürasyonunda uygun olmayan bir durum yoktu. GÖRSEL-1 DMV’ler, kullanıcılar, yetkiler, sql servis kullanıcıları, aklınıza ne geliyorsa her yerden sql ve cluster kontrolü yaptık. Windows Failover cluster’ı kontrol ettiğimizde ise secondary replika clusterının down olduğunu fark ettik.(GÖRSEL-2).  SQL cluster, windows cluster’ın çatısı altında çalıştığı için always on replike olamıyordu. Primary ve secondary replikalar arasında ping attığımızda herhangi bir sorun yaşanmamasında rağmen primary ve secondary node’lar arasında cluster haberleşmesi yapamıyordu. GÖRSEL-2 Önce firewall engellemelerini kontrol ettik, engelleme yoktu. Hatta primary […]

WINDOWS FAILOVER CLUSTER’DA BULUNAN NODE’UN DOWN OLMA DURUMU

Bu yazımda sizlere karşılaştığım ilginç bir hatayı paylaşacağım. Başınıza gelme ihtimali düşükte olsa konuyu bilmekte fayda var diye düşünmekteyim.

Şöyle ki; gün içerisinde aynı anda birçok uygulamamızın bağlı olduğu Always On çalışan SQL serverler aynı anda secondary replikalar ile haberleşmesini kaybetti. Always on dashboard’dan başlayarak sql taraflı kontrolleri yaptık. Secondary SQL node’u kopmuş ve “Availability replika disconnected” hatasının veriyordu.(Hatanın genel çözümüne dair yazımıza linkten ulaşabilirsiniz.(GÖRSEL-1) (https://www.veritabani.org/availability-replica-is-disconnected-hatasi/) Bu hataya dair kontrolleri yaptık. Replica konfigürasyonunda uygun olmayan bir durum yoktu.

GÖRSEL-1

DMV’ler, kullanıcılar, yetkiler, sql servis kullanıcıları, aklınıza ne geliyorsa her yerden sql ve cluster kontrolü yaptık. Windows Failover cluster’ı kontrol ettiğimizde ise secondary replika clusterının down olduğunu fark ettik.(GÖRSEL-2).  SQL cluster, windows cluster’ın çatısı altında çalıştığı için always on replike olamıyordu. Primary ve secondary replikalar arasında ping attığımızda herhangi bir sorun yaşanmamasında rağmen primary ve secondary node’lar arasında cluster haberleşmesi yapamıyordu.

GÖRSEL-2

Önce firewall engellemelerini kontrol ettik, engelleme yoktu. Hatta primary ve secondary makineler arasında any-any yetkisine kadar işi ilerlettik ancak haberleşmede engelleme yoktu. Sorunun failover cluster tarafında olduğu artık kesin gibiydi. Power Shell scriptleri ile down olan node’u ayağa kaldırmaya çalışmakta işe yaramadı. Manuel bir şekilde node ayağa kalkmıyordu. Sorun SQL’den bağımsız bir hale geldi. SQL updateler ve Windows updateler ile gelen policylere kadar işi ilerlettik ancak yine de bir sonuç alamadık. Tüm haberleşmeleri kontrol ettik gayet stabildi. Availability replika portu 5022’den kontrolleri sağladık yine bir sıkıntı görünmemekteydi.

Daha sayamadığım bir çok şey denememize rağmen secondary node windows failover cluster bir türlü ayağa kalkmıyordu. Bundan dolayı da Always on data eşitlemesi de geride kalmıştı.

Failover cluster üzerinde sorun ararken, problemin WSCF eşitleme dosyasında olduğunu tespit ettik. Sorun Windows failover cluster’ın heartbeat haberleşmesini kaybetmesi sonucu WSCF eşitlemesini yapamamasında ötürü kaynaklanıyordu.

Çözüme geçecek olursak;

1.ADIM: Tüm node’larda cluster servisleri durdurup disable’a çekiyoruz. (GÖRSEL-3)

GÖRSEL-3

2.ADIM: Her node’da bulunan windows failover cluster manager’a ait bir dosya var.  C:\Windows\Cluster dosyasının içerisinde ‘CLUSDB’ isminde uzantısı olmayan bir dosya. Bu dosya bir anlamda windows cluster’ın database dosyası. Bu dosyayı ‘UP’ durumda olan bir cluster’dan kopyalayıp ‘DOWN’ olan cluster’larda aynı yola yapıştırdık(Yapıştırmadan önce DOWN node’un CLUSDB dosyasını yedekledik). Bu dosya kopyalama işlemi ile aslında heartbeat’leri eşitlemiş oluyoruz.

GÖRSEL-4

3.ADIM: Son olarak failover cluster servisini restart ediyoruz. (GÖRSEL-5)

GÖRSEL-5

 

Sıkıntılı olan node’un ayağa kalktığını görüyoruz. (GÖRSEL-6)

GÖRSEL-6

Yaşanan network kesintisinin; ağ trafiğinde meydana gelen yüksek trafik sonucu olduğu anladık. Windows Failover cluster, CLUSDB dosyası üzerinde heartbeat haberleşmesi ve eşitlemesi yapıyor. Bu yüksek trafikte bu eşitlemeyi yapamayan node’un geri kaldığı için down oluyor.

Buradaki heartbeat tam olarak aynı olmamakla birlikte always on heartbeat mantığı ile çalışıyor. ÖZETLE; Ayakta ve güncel olan node’un CLUSDB dosyasını down olan node’a kopyaladığımızda da sorunumuz çözülmüş oluyor.

SON NOT: Windows cluster ayağa kalktıktan sonra geri de kalan secondary sql node’ları resume etmeyi unutmayalım.

Kaynaklar:

https://gaptheguru.wordpress.com/sql-server/backup-and-restore-of-the-failover-cluster-configuration-using-vss/

https://www.altaro.com/backup-dr/clusdb-backup-recovery/

 

Benzer Yazılar

SQL Server ‘da Detach-Attach İşlemleri Nasıl Yapılır?

SQL Server 10 dakika önce

SQL Server’ da  Detach – Attach İşlemleri. Merhaba, bu yazımda SQL Serverda veri tabanımızı farklı sunuculara taşımamız gerektiğinde ya da farklı sunuculardaki veri tabanlarını listemize almak istediğimizde nasıl bir yol izlememiz gerektiğini anlatacağım.İçindekilerDETACH İşlemiATTACH İşlemi Öncelikle bir veri tabanını taşımanın birden fazla yolu var. Bunlar: Detach-Attach, Restore, Backup yöntemleridir. Neden Veri Tabanını Taşırız? Sunucularımızda kaynak yetersizliğimiz olabilir. Sürüm yükseltmemiz gerekebilir. Domain değişikliği olabilir. İlk olarak “Uygulama” isimli bir veri tabanı oluşturalım. İşlemlerimizi bu veri tabanı üzerinden yürüteceğiz. CREATE DATABASE Uygulama Sorgumuz ile veri tabanımızın nerede tutulduğunu bulalım. USE Uygulama GO EXEC sp_helpfile DETACH İşlemi Detach İşlemi, ilgili veri tabanımızı listeden çıkarmak yani taşımak istediğimizde Detach bize yardımcı oluyor. Soldaki veri tabanı listemizden Uygulama isimli veri tabanımızın üzerine gelip sağ tık >Tasks >Detach yolunu izleyeceğiz.   Karşımıza gelen panelde Message alanında “Active Connections” yazıyor. Yani bir aktif bağlantı olduğunu söylüyor. Biz de DropConnections alanındaki tiki işaretleyeceğiz ki bu aktif bağlantıyı silsin. […]

SQL SERVER SERViS RESTART HATASI

SQL Server 2 ay önce

Bu haftaki yazımızda karşılan bir hata üzerindeki; logları ve çözümünü anlatacağım. Aşağıdaki GÖRSEL-1’de görüldüğü üzere SQL servisini restart ettiğimiz sırada bir hata ile karşılaşıyoruz. Servis running state’e geçemiyor. “The request failed or the service did not respond in a timely fashion. Consult the event log or other applicable error logs for details” şeklinde bir uyarı veriyor. Hatanın çözümüne doğru ilerlerken farklı servis hesaplarıyla veya “Local System” hesabı ile restart etmeye çalıştığınızda servis ilginç bir şekilde ayağa kalkıyor. Ancak Always on sistem çalışıyorsanız farklı servis hesaplarını kullandığınızda always on size haberleşme izni vermiyor. Aynı hesabın şifresi ile ilgili sorunlar olduğu düşünüp hesabın şifresini de değiştirdiğiniz de yine sonuç alamıyorsunuz. Burdan yola çıkıldığında sıkıntı servis hesabında gibi görünüyor olabilir ancak çözüme geçildiğinde regedit üzerinde yapacağımız bir işlem ile sorunu çözüyoruz. Servis hesabının kaydının olduğu regedit kaydını siliyoruz. Regedit üzerindeki servis hesap bilgisi güncellendiğinde sorun çözülmüş olmakta. GÖRSEL-1  Servis restart edildiğinde SQL’in verdiği Error […]

SQL’DE İKİ NODE’UN RESOLVING DURUMA DÜŞMESİ VE ÇÖZÜMÜ

SQL Server 3 ay önce

Bu yazımızda failover olma işlemi esnasında karşılaşılan bir durumdan kısaca bahsedeceğim. Kısa bir yazı olacak ama önemli olduğunu düşünüyorum. Bazen failover olmak istediğinizde cluster secondary’e node’a failover olamaz, hem secondary hem de primary node’unuz resolving durumuna geçer. Bu durumla daha çok otomatik failover olma durumlarında karşılaşılır çünkü sistem failover’a aslında hazır değildir ancak cluster bunu bir şekilde bilemez. Failover olma gerçekleşemez bir anlamda sql cluster askıda kalır ve hiçbir sunucu da sql engine çalışmaya devam edemez. (GÖRSEL-1) GÖRSEL-1 GÖRSEL-1 üzerinde gördüğünüz üzere availability group resolving duruma düşer. Availability replica’lar üzerinde de gördüğünüz üzere primary ve secondary tüm node’lar resolving state’e düşer. Böyle bir durumunda iki farklı çözüm yolumuz var;   Çözüm: ikinci node’a sunucu restart’ı atmak. Bu noktada secondary sql node’a servis restart atmak işe yaramıyor. Zaten db’ler iki taraflı resolving modda. O sebeple ancak sunucu restart atıldığında cluster ayakta olan sunucuyu görüyor ve askıda kalma durumundan ilk başta primary […]

1 Yorum

  • Oğuzhan şahin 7 Nisan 2024

    Merhaba
    Aynı sorun bende de oldu, server 1 node down görünüyor, server 2 clusdb kopyaladım ama çalışmadı, server2 cluster stop olduğu zaman server1 node up oluyor, yardımlarınız için teşekkür ederim 05446341038

Yorum Yaz

Rastgele