WINDOWS FAILOVER CLUSTER’DA BULUNAN NODE’UN DOWN OLMA DURUMU

Bu yazımda sizlere karşılaştığım ilginç bir hatayı paylaşacağım. Başınıza gelme ihtimali düşükte olsa konuyu bilmekte fayda var diye düşünmekteyim. Şöyle ki; gün içerisinde aynı anda birçok uygulamamızın bağlı olduğu Always On çalışan SQL serverler aynı anda secondary replikalar ile haberleşmesini kaybetti. Always on dashboard’dan başlayarak sql taraflı kontrolleri yaptık. Secondary SQL node’u kopmuş ve “Availability replika disconnected” hatasının veriyordu.(Hatanın genel çözümüne dair yazımıza linkten ulaşabilirsiniz.(GÖRSEL-1) (https://www.veritabani.org/availability-replica-is-disconnected-hatasi/) Bu hataya dair kontrolleri yaptık. Replica konfigürasyonunda uygun olmayan bir durum yoktu. GÖRSEL-1 DMV’ler, kullanıcılar, yetkiler, sql servis kullanıcıları, aklınıza ne geliyorsa her yerden sql ve cluster kontrolü yaptık. Windows Failover cluster’ı kontrol ettiğimizde ise secondary replika clusterının down olduğunu fark ettik.(GÖRSEL-2).  SQL cluster, windows cluster’ın çatısı altında çalıştığı için always on replike olamıyordu. Primary ve secondary replikalar arasında ping attığımızda herhangi bir sorun yaşanmamasında rağmen primary ve secondary node’lar arasında cluster haberleşmesi yapamıyordu. GÖRSEL-2 Önce firewall engellemelerini kontrol ettik, engelleme yoktu. Hatta primary […]

WINDOWS FAILOVER CLUSTER’DA BULUNAN NODE’UN DOWN OLMA DURUMU

Bu yazımda sizlere karşılaştığım ilginç bir hatayı paylaşacağım. Başınıza gelme ihtimali düşükte olsa konuyu bilmekte fayda var diye düşünmekteyim.

Şöyle ki; gün içerisinde aynı anda birçok uygulamamızın bağlı olduğu Always On çalışan SQL serverler aynı anda secondary replikalar ile haberleşmesini kaybetti. Always on dashboard’dan başlayarak sql taraflı kontrolleri yaptık. Secondary SQL node’u kopmuş ve “Availability replika disconnected” hatasının veriyordu.(Hatanın genel çözümüne dair yazımıza linkten ulaşabilirsiniz.(GÖRSEL-1) (https://www.veritabani.org/availability-replica-is-disconnected-hatasi/) Bu hataya dair kontrolleri yaptık. Replica konfigürasyonunda uygun olmayan bir durum yoktu.

GÖRSEL-1

DMV’ler, kullanıcılar, yetkiler, sql servis kullanıcıları, aklınıza ne geliyorsa her yerden sql ve cluster kontrolü yaptık. Windows Failover cluster’ı kontrol ettiğimizde ise secondary replika clusterının down olduğunu fark ettik.(GÖRSEL-2).  SQL cluster, windows cluster’ın çatısı altında çalıştığı için always on replike olamıyordu. Primary ve secondary replikalar arasında ping attığımızda herhangi bir sorun yaşanmamasında rağmen primary ve secondary node’lar arasında cluster haberleşmesi yapamıyordu.

GÖRSEL-2

Önce firewall engellemelerini kontrol ettik, engelleme yoktu. Hatta primary ve secondary makineler arasında any-any yetkisine kadar işi ilerlettik ancak haberleşmede engelleme yoktu. Sorunun failover cluster tarafında olduğu artık kesin gibiydi. Power Shell scriptleri ile down olan node’u ayağa kaldırmaya çalışmakta işe yaramadı. Manuel bir şekilde node ayağa kalkmıyordu. Sorun SQL’den bağımsız bir hale geldi. SQL updateler ve Windows updateler ile gelen policylere kadar işi ilerlettik ancak yine de bir sonuç alamadık. Tüm haberleşmeleri kontrol ettik gayet stabildi. Availability replika portu 5022’den kontrolleri sağladık yine bir sıkıntı görünmemekteydi.

Daha sayamadığım bir çok şey denememize rağmen secondary node windows failover cluster bir türlü ayağa kalkmıyordu. Bundan dolayı da Always on data eşitlemesi de geride kalmıştı.

Failover cluster üzerinde sorun ararken, problemin WSCF eşitleme dosyasında olduğunu tespit ettik. Sorun Windows failover cluster’ın heartbeat haberleşmesini kaybetmesi sonucu WSCF eşitlemesini yapamamasında ötürü kaynaklanıyordu.

Çözüme geçecek olursak;

1.ADIM: Tüm node’larda cluster servisleri durdurup disable’a çekiyoruz. (GÖRSEL-3)

GÖRSEL-3

2.ADIM: Her node’da bulunan windows failover cluster manager’a ait bir dosya var.  C:\Windows\Cluster dosyasının içerisinde ‘CLUSDB’ isminde uzantısı olmayan bir dosya. Bu dosya bir anlamda windows cluster’ın database dosyası. Bu dosyayı ‘UP’ durumda olan bir cluster’dan kopyalayıp ‘DOWN’ olan cluster’larda aynı yola yapıştırdık(Yapıştırmadan önce DOWN node’un CLUSDB dosyasını yedekledik). Bu dosya kopyalama işlemi ile aslında heartbeat’leri eşitlemiş oluyoruz.

GÖRSEL-4

3.ADIM: Son olarak failover cluster servisini restart ediyoruz. (GÖRSEL-5)

GÖRSEL-5

 

Sıkıntılı olan node’un ayağa kalktığını görüyoruz. (GÖRSEL-6)

GÖRSEL-6

Yaşanan network kesintisinin; ağ trafiğinde meydana gelen yüksek trafik sonucu olduğu anladık. Windows Failover cluster, CLUSDB dosyası üzerinde heartbeat haberleşmesi ve eşitlemesi yapıyor. Bu yüksek trafikte bu eşitlemeyi yapamayan node’un geri kaldığı için down oluyor.

Buradaki heartbeat tam olarak aynı olmamakla birlikte always on heartbeat mantığı ile çalışıyor. ÖZETLE; Ayakta ve güncel olan node’un CLUSDB dosyasını down olan node’a kopyaladığımızda da sorunumuz çözülmüş oluyor.

SON NOT: Windows cluster ayağa kalktıktan sonra geri de kalan secondary sql node’ları resume etmeyi unutmayalım.

Kaynaklar:

https://gaptheguru.wordpress.com/sql-server/backup-and-restore-of-the-failover-cluster-configuration-using-vss/

https://www.altaro.com/backup-dr/clusdb-backup-recovery/

 

Benzer Yazılar

HashTable HashIndex HashPartition

SQL Server 6 gün önce

Bu makalede modern veri tabanı sistemlerinde verimliliği artıran HashTable, HashIndex ve Hashpartition yapılarını inceleyeceğiz. Bu kavramların nasıl çalıştığını, avantajlarını, dezavantajlarını ve pratik kullanım örneklerini SQL kodlarıyla açıklayacağız.İçindekilerHash Table Nedir?Hash Index Nedir?Hash Partitioning Nedir? Hash tabanlı bir veri yapısı tasarlayacağımız ortamda bilmemiz gereken özellikle hash partitioning ya da bucketing gibi bölümlendirme stratejilerinde sıkça karşımıza çıkacak bir parametre olan bucket_count, verilerin kaç adet bucket içine dağıtılacağını belirleyen sayısal bir değerdir. Her bir bucket, belirli bir hash değeri aralığına denk gelir ve veriler, belirli bir kolona uygulanan hash fonksiyonunun çıktısına göre bu bucket ‘lardan birine atanır. Peki, bu bizim için neden önemli? Doğru belirlenmiş bir bucket_count değeri, verilerin eşit dağılımı sağlar bu da sorgu performansını iyileştirir. Bucket sayısı, paralel çalışan işlemlerin sayısını doğrudan etkiler, örneğin bir tablo 16 bucket sahipse, aynı anda 16 thread veriyi işleyebilir. Aynı bucket sayısıyla bölünmüş tablolar arasında yapılan join işlemleri daha verimli olur. CREATE TABLE UserActiviy ( Id_user […]

In-Memory Table and Native Stored Procedures

SQL Server 1 ay önce

Bu makalede 2014 yılında yayınlanan In-Memory Table OLTP(Online Transaction Processing) Engine yapısından bahsedeceğim.İçindekilerKaynak: In-Memory Table, adından da anlaşılacağı üzere, verileri fiziksel disk yerine RAM üzerinde saklandığı özel bir tablo türüdür. Bu yapı, geleneksel disk tabanlı tablolara kıyasla çok daha hızlı veri okuma ve yazma performansı sunar çünkü disk erişimi esnasında yaşanan darboğaz sorununa alternatif bir çözüm sunmuştur. Verinin, buffer pool içinde cache’lenmesi, düşük gecikme(low latency) ve yüksek throughput en büyük avantajlarıdır. Özellikle yüksek hacimli veri işleyen, çok sayıda eş zamanlı işlem gerçekleştiren veya gerçek zamanlı yanıt süresi gerektiren sistemlerin kullanımı oldukça yaygındır. (Örneğin: finansal platformlar, IoT işlemleri, sipariş işlemleri) Avantajlarını göz önünde bulundurarak o zaman her ortama bunu yapalım diyebiliriz 🙂 pahalı bir donanım olan RAM ‘den sınırsız bir şekilde elinizde bulunduruyor olmanız gerekebilir çünkü In-Memory bulunduğu ortama yüksek RAM maliyeti, kendine has filegroup yapısı ile yönetimsel zorluklar, failover sürelerinin uzaması gibi dezavantajları da beraberinde getirmektedir. In-Memory Tabloların kendine özgü […]

SMART BACKUP

SQL Server 1 ay önce

Bu makalede SQL Server 2017 versiyonuyla gelen DMV ‘ler ile kullanımı kolaylaşan bir özellik olan Smart Backup dan bahsedeceğim. Bu makaleye başlamadan şunu belirtmekte fayda var; bu özelliği üçüncü parti yazılımlar veya eklentiler ile yapabilmek mümkün MSSQL haricinde diğer ilişkisel veri tabanı sistemlerinde de buna benzer özellikler tanımlanabilir, kullanılabilir. Bu makalemizin anlaşılabilirliğini artırmak adına öncelikle performans ve veri bütünlüğü açısından hayati öneme sahip olan Checkpoint kavramından bahsetmek istiyorum; SQL Server, veri değişikliklerini önce RAM’de (buffer cache) tutar, bu sırada log dosyasına (LDF) işlemi yazar. Checkpoint olduğunda, bu değişmiş (dirty) geçici verileri .LDF dosyasından kalıcı hale getirir .MDF dosyasına (diske) yazar. Checkpoint, varsayılan olarak her 60 saniyede bir çalışır ancak SQL Server 2012 ile indirect checkpoints tanıtıldı ve veri tabanı bazlı olarak ayarlanabilir. Şimdi iki Checkpoint yönetimine daha yakından bakarak artı ve eksilerinden bahsedelim; Otomatik checkpoint modunda, tüm buffer pool’daki sayfalar taranır ve değişmiş sayfalar bulunur bu ilk baktığımızda bizim için […]

1 Yorum

  • Oğuzhan şahin 7 Nisan 2024

    Merhaba
    Aynı sorun bende de oldu, server 1 node down görünüyor, server 2 clusdb kopyaladım ama çalışmadı, server2 cluster stop olduğu zaman server1 node up oluyor, yardımlarınız için teşekkür ederim 05446341038

Yorum Yaz

Rastgele