Changes:
[slony-i/slony_failover] / slony_failover.pl
1 #!/usr/bin/perl
2
3 # Script:       failover.pl
4 # Copyright:    08/04/2012: v1.0.2 Glyn Astill <glyn@8kb.co.uk>
5 # Requires:     Perl 5.10.1+, Data::UUID, File::Slurp
6 #               PostgreSQL 9.0+ Slony-I 1.2+ / 2.0+
7 #
8 # This script is a command-line utility to manage switchover and failover
9 # of replication sets in Slony-I clusters.
10 #
11 # This script is free software: you can redistribute it and/or modify
12 # it under the terms of the GNU General Public License as published by
13 # the Free Software Foundation, either version 3 of the License, or
14 # (at your option) any later version.
15 #
16 # This script is distributed in the hope that it will be useful,
17 # but WITHOUT ANY WARRANTY; without even the implied warranty of
18 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
19 # GNU General Public License for more details.
20 #
21 # You should have received a copy of the GNU General Public License
22 # along with this script.  If not, see <http://www.gnu.org/licenses/>.
23
24 use strict;
25 use warnings;
26 use DBI;
27 use Getopt::Long qw/GetOptions/;
28 use Data::UUID;
29 use File::Slurp;
30 use v5.10.1;
31 use sigtrap 'handler' => \&sigExit, 'HUP', 'INT','ABRT','QUIT','TERM';
32 use Time::HiRes qw/usleep gettimeofday/;
33 use POSIX qw/strftime/;
34 use Config qw/%Config/;
35
36 use constant false => 0;
37 use constant true  => 1;
38
39 my $g_script_version = '1.0.3';
40 my $g_debug = false;
41 my $g_pidfile = '/var/run/slony_failover.pid';
42 my $g_pid_written = false;
43 my $g_lang = 'en';
44 my $g_prefix = '/tmp/slony_failovers';
45 my $g_separate_working = true;
46 my $g_log_prefix = '%t';
47 my $g_log_to_db = false;
48 my $g_logdb_name;
49 my $g_logdb_host;
50 my $g_logdb_port;
51 my $g_logdb_user;
52 my $g_logdb_pass;
53 my $g_slonikpath;
54 my $g_use_try_blocks = false;
55 my $g_lockset_method = 'multiple';
56 my $g_logfile = 'failover.log';
57 my $g_input;
58 my $g_silence_notice = false;
59 my $g_reason;
60 my $g_script;
61 my $g_node_from;
62 my $g_node_to;
63 my $g_clname;
64 my $g_dbname;
65 my $g_dbhost;
66 my $g_dbport = 5432;
67 my $g_dbconninfo;
68 my $g_dbpass = '';
69 my $g_dbuser = 'slony';
70 my $g_node_count;
71 my $g_available_node_count;
72 my $g_critical_node_count;
73 my $g_subs_follow_origin = false;
74 my $g_use_comment_aliases = false;
75 my @g_cluster;                      # Array refs of node info.  In hindsight this should have been a hash, should be fairly simple to switch.
76 my @g_failed;
77 my @g_sets;
78 my @g_lags;
79 my $g_result;
80 my $g_version;
81 my $g_failover_method = 'old';
82 my $g_resubscribe_method = 'subscribe';
83 my $g_failover = false;
84 my $g_fail_subonly = false;
85 my $g_drop_failed = false;
86 my $g_autofailover = false;
87 my $g_autofailover_poll_interval = 500;
88 my $g_autofailover_retry = 2;
89 my $g_autofailover_retry_sleep = 1000;
90 my $g_autofailover_provs = false;
91 my $g_autofailover_config_any = true;
92 my $g_autofailover_perspective_sleep = 20000;
93 my $g_autofailover_majority_only = false;
94 my $g_autofailover_is_quorum = false;
95 my @g_unresponsive;
96 my %g_unresponsive_subonly;
97 my %g_backups;
98 my $g_pid = $$;
99
100
101 my %message = (
102 'en' => {
103     'usage'                            => q{-h <host> -p <port> -db <database> -cl <cluster name> -u <username> -P <password> -f <config file> (Password option not recommended; use pgpass instead)},
104     'title'                            => q{Slony-I failover script version $1},
105     'cluster_fixed'                    => q{Aborting failover action: all origin/provider nodes now responsive},
106     'cluster_failed'                   => q{Found $1 failed nodes, sleeping for $2ms before retry $3 of $4},
107     'load_cluster'                     => q{Getting a list of database nodes...}, 
108     'load_cluster_fail'                => q{Unable to read cluster configuration $1}, 
109     'load_cluster_success'             => q{I Loaded Slony-I v$1 cluster "$2" with $3 nodes read from node at $4:$5/$6}, 
110     'lag_detail'                       => q{Current node lag information from configuration node:},
111     'script_settings'                  => q{Using $1 batches of lock set, $2 FAILOVER and $3},
112     'generated_script'                 => q{Generated script "$1"},
113     'autofailover_init'                => q{Entering autofailover mode},
114     'autofailover_init_cnf'            => q{Slony configuration will be read from $1 node},
115     'autofailover_init_pol'            => q{Polling every $1ms},
116     'autofailover_init_ret'            => q{Failed nodes will be retried $1 times with $2ms sleep},
117     'autofailover_init_set'            => q{Failed forwarding providers $1 be failed over},
118     'autofailover_load_cluster'        => q{$1 Slony-I v$2 cluster "$3" with $4 nodes read from node $5},
119     'autofailover_proceed'             => q{Proceeding with failover:},
120     'autofailover_detail'              => q{Failed node: $1, Backup node: $2},
121     'autofailover_halt'                => q{Unable to perform any failover for $1 failed nodes},
122     'autofailover_check_sub'           => q{Checking subscriber node $1},
123     'autofailover_check_sub_fail'      => q{Unable to check subscriber node $1},
124     'autofailover_promote_find'        => q{Finding most up to date subscriber to all sets ($1) on unresponsive node $2},
125     'autofailover_promote_found'       => q{Using previously found most up to date subscriber to all sets ($1) on unresponsive node $2},
126     'autofailover_promote_skip'        => q{No failover required for unresponsive node $1 as it is neither the origin or an active forwarder of any sets},
127     'autofailover_promote_fail'        => q{Could not find suitable backup node for promotion},
128     'autofailover_node_detail'         => q{Node $1 is $2 subscribed to ($3) node $4 and provides sets $5 at $6 seconds lag (on event $7)},
129     'autofailover_promote_best'        => q{Best node for promotion is node $1 lag = $2 seconds (event $3)},
130     'autofailover_promote_unsuitable'  => q{Node $1 is unsuitable for promotion},
131     'autofailover_unresponsive'        => q{Detected unresponsive origin node: $1},
132     'autofailover_unresponsive_prov'   => q{Detected unresponsive provider node: $1},
133     'autofailover_unresponsive_subonly'=> q{Detected unresponsive subscriber only node: $1},
134     'autofailover_recovery_subonly'    => q{Detected recovery of previously unresponsive subscriber only node: $1},
135     'autofailover_pspec_check_fail'    => q{Failed to connect to node $1: $2},
136     'autofailover_pspec_check'         => q{Getting objective judgement from other nodes, apparent unresponsive nodes are : $1 (Failed nodes = $2 of $3)},
137     'autofailover_pspec_check_sleep'   => q{Sleeping for $1 ms},
138     'autofailover_pspec_check_data'    => q{$1: Node $2 says lag from node $3 -> $4 is $5 seconds},
139     'autofailover_pspec_check_true'    => q{All detected failed nodes confirmed as lagging by other nodes},
140     'autofailover_pspec_check_false'   => q{Not all nodes confirmed as lagging},
141     'autofailover_pspec_check_unknown' => q{Unable to confirm lag status of all nodes},
142     'autofailover_split_check'         => q{Surviving nodes ($1 of $2) are the majority},
143     'autofailover_split_check_fail'    => q{Surviving nodes ($1) are not the majority},
144     'interactive_head_id'              => q{ID},
145     'interactive_head_name'            => q{Name},
146     'interactive_head_status'          => q{Status},
147     'interactive_head_providers'       => q{Provider IDs},
148     'interactive_head_config'          => q{Configuration},
149     'interactive_detail_1'             => q{Origin for sets: },
150     'interactive_detail_2'             => q{Providing sets: },
151     'interactive_detail_3'             => q{Subscriptions: },
152     'interactive_choose_node'          => q{Please choose the node to move all sets $1:},
153     'interactive_confirm'              => q{You chose to move sets $1 node $2 ($3). Is this correct [y/n]? },
154     'interactive_action'               => q{Best course of action is most likely to do a "$1". Do you wish to continue [y/n]?},
155     'interactive_surrender'            => q{Uable to determine best course of action},
156     'interactive_write_script'         => q{Writing a script to $1 node $2 to $3},
157     'interactive_check_nodes'          => q{Checking availability of database nodes...},
158     'interactive_continue'             => q{Do you wish to continue [y/n]?},
159     'interactive_drop_nodes'           => q{Do you want to also drop the failed nodes from the slony configuration [y/n]?},
160     'interactive_preserve'             => q{Preserve subscription paths to follow the origin node (choose no if unsure) [y/n]?},
161     'interactive_aliases'              => q{Generate aliases based on sl_node/set comments in parentheses (choose no if unsure) [y/n]?},
162     'interactive_summary'              => q{Summary of nodes to be passed to failover:},
163     'interactive_node_info'            => q{Node : $1 ($2) $3 (conninfo $4)},
164     'interactive_run_script'           => q{Would you like to run this script now [y/n]?},
165     'interactive_running'              => q{Running the script now. This may take some time; please be patient!},
166     'interactive_reason'               => q{Please enter a brief reson for taking this action: },
167     'interactive_failover_detail_1'    => q{Before you go any further please consider the impact of a full failover:},
168     'interactive_failover_detail_2'    => q{The node you are failing over from will cease to participate in the cluster permanently until it is rebuild & subscribed},
169     'interactive_failover_detail_3'    => q{If the outage is temporary (i.e. network/power/easily replaceable hardware related) consider waiting it out},
170     'interactive_failover_detail_4'    => q{This type of failover is likely to be more a business decision than a technical one},
171     'info_all_nodes_available'         => q{INFO: All nodes are available},
172     'info_req_nodes_available'         => q{INFO: $1 of $2 nodes are available. No unavailable nodes are subscribed to the old origin},
173     'wrn_node_unavailable'             => q{WARNING: Node $1 unavailable},
174     'wrn_req_unavailable'              => q{WARNING: Old origin node ($1) is available, however $2 subscribers are unavailable},
175     'wrn_not_tested'                   => q{WARNING: Script not tested with Slony-I v$1},
176     'wrn_failover_issues'              => q{WARNING: Slony-I v$1 may struggle to failover correctly with multiple failed nodes (affects v2.0-2.1)},
177     'note_autofail_fwd_only'           => q{NOTICE: Slony versions prior to 2.2 cannot initiate failover from only failed forwarding providers},
178     'note_fail_sub_only'               => q{NOTICE: Slony versions prior to 2.2 cannot failover subscriber only nodes, reverting to failover_offline_subscriber_only = false},
179     'note_multiple_try'                => q{NOTICE: Cannot lock multiple sets within try blocks in version $1 dropping back to single sets},
180     'note_reshape_cluster'             => q{NOTICE: Either drop the failed subscribers or bring them back up, then retry to MOVE SET},
181     'dbg_generic'                      => q{DEBUG: $1},
182     'dbg_cluster'                      => q{DEBUG: NodeID $1/ProvIDs $2/Conninfo $3/OrigSets $4/NodeName $5/ProvTree $6/Active $7/FwdSets $8/ActSubSets $9},
183     'dbg_resubscribe'                  => q{DEBUG: Checking possibility to resubscribe set $1 ($2) to node $3 ($4) which pulls $5 ($6) from $7 ($8)},
184     'dbg_failover_method'              => q{DEBUG: Failover method is $1},
185     'dbg_cluster_load'                 => q{DEBUG: Loading cluster configuration from $1},
186     'dbg_cluster_good'                 => q{DEBUG: Cluster state good},
187     'dbg_autofailover_check'           => q{DEBUG: Checking node $1 ($2) role is $3 (conninfo: $4)},
188     'dbg_autofailover_active_check'    => q{DEBUG: Initiate active check of $1 node $2},
189     'dbg_slonik_script'                => q{DEBUG: Running slonik script $1},
190     'err_generic'                      => q{ERROR: $1},
191     'err_no_database'                  => q{ERROR: Please specify a database name},
192     'err_no_cluster'                   => q{ERROR: Please specify a slony cluster name},
193     'err_no_host'                      => q{ERROR: Please specify a host},
194     'err_no_config'                    => q{ERROR: No valid config found},
195     'err_fail_config'                  => q{ERROR: Failed to load configuration},
196     'err_write_fail'                   => q{ERROR: Could not write to $1 "$2"},
197     'err_read_fail'                    => q{ERROR: Could not read from $1 "$2"},
198     'err_unlink_fail'                  => q{ERROR: Could not delete $1 "$2"},
199     'err_mkdir_fail'                   => q{ERROR: Unable to create $1 directory "$2"},
200     'err_execute_fail'                 => q{ERROR: Could not execute $1 "$2"},
201     'err_inactive'                     => q{ERROR: Node $1 is not active (state = $2)},
202     'err_cluster_empty'                => q{ERROR: Loaded cluster contains no nodes}, 
203     'err_cluster_offline'              => q{ERROR: Loaded cluster contains no reachable nodes}, 
204     'err_cluster_lone'                 => q{ERROR: Loaded cluster contains only 1 node}, 
205     'err_not_origin'                   => q{ERROR: Node $1 is not the origin of any sets},
206     'err_not_provider'                 => q{ERROR: Node $1 is not a provider of any sets},
207     'err_not_provider_sets'            => q{ERROR: Node $1 does not provide the sets required: need ($2) but provides ($3)},
208     'err_no_configuration'             => q{ERROR: Could not read configuration for node $1},
209     'err_must_enter_node_id'           => q{ERROR: You must enter a node id},
210     'err_not_a_node_id'                => q{ERROR: I have no knowledge of a node $1},
211     'err_same_node'                    => q{ERROR: Cant move from and to the same node},
212     'err_node_offline'                 => q{ERROR: $1 node ($2) is not available},
213     'err_incomplete_preamble'          => q{ERROR: Incomplete preamble},
214     'err_running_slonik'               => q{ERROR: Could not run slonik: $1},
215     'err_pgsql_connect'                => q{ERROR: Cannot connect to postgres server},
216     'slonik_output'                    => q{SLONIK: $1},
217     'exit_noaction'                    => q{Exiting, no action has been taken},
218     'exit'                             => q{Exited by $1}
219     },
220 'fr' => {
221     'usage'                            => q{-h <host> -p <port> -db <database> -cl <cluster name> -u <username> -P <password> -f <config file> (Option mot de passe pas recommandé; utiliser pgpass place)},
222     'title'                            => q{Slony-I failover (basculement) version de script $1},
223     'cluster_fixed'                    => q{Abandon de l'action de basculement: tous les noeuds d'origine / de fournisseurs maintenant sensible},
224     'cluster_failed'                   => q{Trouvé $1 échoué noeuds, couchage pour $2 ms avant réessayer $3 de $4},
225     'load_cluster'                     => q{Obtenir une liste de noeuds de base de donnees...},
226     'load_cluster_fail'                => q{Impossible de lire la configuration du cluster $1},
227     'load_cluster_success'             => q{Chargé Slony-I v$1 groupe "$2" avec $3 noeuds lire à partir du noeud à $4:$5/$6},
228     'lag_detail'                       => q{Current informations noeud de décalage à partir du noeud de configuration:},
229     'script_settings'                  => q{Utilisation de $1 lots de système de verrouillage, $2 FAILOVER et $3},
230     'generated_script'                 => q{Script généré "$1"},
231     'autofailover_init'                => q{Entrer dans le mode de autofailover},
232     'autofailover_init_cnf'            => q{Configuration Slony sera lu à partir de $1 noeud},
233     'autofailover_init_pol'            => q{Vérifier toutes les $1ms},
234     'autofailover_init_ret'            => q{Noeuds défaillants seront rejugés $1 fois avec $2 ms sommeil},
235     'autofailover_init_set'            => q{Fournisseurs d'expédition échoué $1 être échoué sur},
236     'autofailover_load_cluster'        => q{$1 Slony-I v$2 grappe "$3" avec $4 noeuds lire à noeud $5},
237     'autofailover_proceed'             => q{De procéder à failover:},
238     'autofailover_detail'              => q{Noeud défaillant: $1, noeud de sauvegarde: $2},
239     'autofailover_halt'                => q{Noeuds Impossible d'effectuer une failover pour $1 échoué},
240     'autofailover_check_sub'           => q{Vérification noeud abonné $1},
241     'autofailover_check_sub_fail'      => q{Impossible de vérifier noeud abonné $1},
242     'autofailover_promote_find'        => q{Trouver plus à jour abonné à tous les jeux ($1) sur le noeud ne répond pas $2},
243     'autofailover_promote_found'       => q{Utilisation précédemment trouvé plus à jour abonné à tous les jeux ($1) sur le noeud ne répond pas $2},
244     'autofailover_promote_skip'        => q{Pas de failover requis pour le noeud ne répond pas $1 car il n'est ni l'origine ou un transitaire active de tous les jeux},
245     'autofailover_promote_fail'        => q{Impossible de trouver le noeud de sauvegarde approprié pour la promotion},
246     'autofailover_node_detail'         => q{Noeud $1 est souscrit à $2 ($3) noeud $4 et fournit des ensembles de $5 à retard $6 secondes (en cas d'événement $7)},
247     'autofailover_promote_best'        => q{Meilleur noeud pour la promotion est noeud $1 décalage = $2 secondes (événement $3)},
248     'autofailover_promote_unsuitable'  => q{Noeud $1 est inadapté pour la promotion},
249     'autofailover_unresponsive'        => q{Noeud d'origine ne répond pas détecté: $1},
250     'autofailover_unresponsive_prov'   => q{Noeud fournisseur ne répond pas détecté: $1},
251     'autofailover_unresponsive_subonly'=> q{Abonné ne répond pas détecté seulement de noeud: $1},
252     'autofailover_recovery_subonly'    => q{Recouvrement détecté de l'abonné ne répond pas seulement auparavant de noeud: $1},
253     'autofailover_pspec_check_fail'    => q{Impossible de se connecter au noeud $1: $2},
254     'autofailover_pspec_check'         => q{Obtenir un jugement objectif à partir d'autres noeuds, les noeuds qui ne répondent pas apparentes sont : $1 (Noeuds défaillants = $2 de $3)},
255     'autofailover_pspec_check_sleep'   => q{Dormir pour $1 ms},
256     'autofailover_pspec_check_data'    => q{$1: Noeud $2 dit décalage de $3 -> $4 noeud est $5 secondes},
257     'autofailover_pspec_check_true'    => q{Tous les noeuds détectés pas confirmés comme à la traîne par d'autres noeuds},
258     'autofailover_pspec_check_false'   => q{Pas tous les noeuds confirmé retard},
259     'autofailover_pspec_check_unknown' => q{Impossible de confirmer le statut de latence de tous les noeuds},
260     'autofailover_split_check'         => q{Autres noeuds ($1 sur $2) sont la majorité},
261     'autofailover_split_check_fail'    => q{Autres noeuds ($1) ne sont pas la majorité},
262     'interactive_head_name'            => q{Nom},
263     'interactive_head_status'          => q{Statut},
264     'interactive_head_providers'       => q{Fournisseur IDs},
265     'interactive_detail_1'             => q{Origine pour les jeux: },
266     'interactive_detail_2'             => q{Fournir des ensembles: },
267     'interactive_detail_3'             => q{Abonnements: },
268     'interactive_choose_node'          => q{S'il vous plaît choisissez le noeud à déplacer tous les ensembles $1:},
269     'interactive_confirm'              => q{Vous avez choisi de passer ensembles $1 noeud $2 ($3). Est-ce correct [o/n]? },
270     'interactive_drop_nodes'           => q{Voulez-vous laisser tomber aussi les noeuds défaillants de la configuration de slony [o/n]?},
271     'interactive_action'               => q{Meilleur plan d'action est le plus susceptible de faire une $1. Voulez-vous continuer [o/n]?},
272     'interactive_surrender'            => q{Uable pour déterminer le meilleur plan d'action},
273     'interactive_write_script'         => q{Rédaction d'un script à $1 $2 noeud à $3},
274     'interactive_check_nodes'          => q{Vérification de la disponibilité des noeuds de base de donnees...},
275     'interactive_continue'             => q{Voulez-vous continuer [o/n]?},
276     'interactive_preserve'             => q{Préserver les chemins de souscription à suivre le noeud d'origine (ne pas choisir en cas de doute) [o/n]?},
277     'interactive_aliases'              => q{Générer des alias sur la base de sl_node / set commentaires entre parenthèses (ne pas choisir en cas de doute) [o/n]?},
278     'interactive_summary'              => q{Résumé des noeuds à passer à failover:},
279     'interactive_node_info'            => q{Noeud : $1 ($2) $3 (conninfo $4)},
280     'interactive_run_script'           => q{Voulez-vous exécuter ce script maintenant [o/n]?},
281     'interactive_running'              => q{L'exécution du script maintenant. Cela peut prendre un certain temps; s'il vous plaît être patient!},
282     'interactive_reason'               => q{S'il vous plaît entrer une brève reson pour cette action: },
283     'interactive_failover_detail_1'    => q{Avant d'aller plus loin s'il vous plaît envisager l'impact d'un failover (basculement) complet:},
284     'interactive_failover_detail_2'    => q{Le noeud vous ne parviennent pas au-dessus de cesse de participer au groupe de façon permanente jusqu'à ce qu'il soit à reconstruire et souscrit},
285     'interactive_failover_detail_3'    => q{Si la panne est temporaire (c.-à-réseau / alimentation / facilement remplaçable matériel connexe) envisager d'attendre dehors},
286     'interactive_failover_detail_4'    => q{Ce type de failover est susceptible d'être plus une décision d'affaires que technique},
287     'info_all_nodes_available'         => q{INFO: Tous les noeuds sont disponibles},
288     'info_req_nodes_available'         => q{INFO: $1 of $2 noeuds sont disponibles. Pas de noeuds indisponibles sont souscrites à l'ancienne origine},
289     'wrn_node_unavailable'             => q{ATTENTION: Noeud $1 disponible},
290     'wrn_req_unavailable'              => q{ATTENTION: Noeud Old origine ($1) est disponible, mais $2 abonnés ne sont pas disponibles},
291     'wrn_not_tested'                   => q{ATTENTION: Script pas testé avec Slony-I v$1},
292     'wrn_failover_issues'              => q{ATTENTION: Slony-I v$1 peut lutter pour basculer correctement avec plusieurs nœuds défaillants (affecte v2.0-2.1)},
293     'note_autofail_fwd_only'           => q{AVIS: Versions antérieures à la 2.2 Slony ne peuvent pas initier le basculement de seulement échoué transmettre fournisseurs},
294     'note_fail_sub_only'               => q{AVIS: Versions antérieures à la 2.2 Slony ne peuvent pas basculer abonnes seuls les noeuds, revenant à failover_offile_subscriber_only = false},
295     'note_multiple_try'                => q{AVIS: Vous ne pouvez pas verrouiller plusieurs ensembles dans des blocs try dans la version $1 de retomber à des jeux simples},
296     'note_reshape_cluster'             => q{AVIS: Vous devez supprimer les abonnés défaillants ou les ramener, puis réessayez à MOVE SET},
297     'err_generic'                      => q{ERREUR: $1},
298     'err_no_database'                  => q{ERREUR: S'il vous plaît spécifier un base de donnees nom},
299     'err_no_cluster'                   => q{ERREUR: S'il vous plaît indiquez un nom de cluster slony},
300     'err_no_host'                      => q{ERREUR: S'il vous plaît spécifier un hôte},
301     'err_no_config'                    => q{ERREUR: Aucune configuration valide n'a été trouvée},
302     'err_fail_config'                  => q{ERREUR: Impossible de charger la configuration},
303     'err_write_fail'                   => q{ERREUR: Impossible d'écrire dans $1 "$2"},
304     'err_read_fail'                    => q{ERREUR: Impossible de lire $1 "$2"},
305     'err_unlink_fail'                  => q{ERREUR: Impossible de supprimer $1 "$2"},
306     'err_mkdir_fail'                   => q{ERREUR: Impossible de créer $1 répertoire "$2"},
307     'err_execute_fail'                 => q{ERREUR: Impossible d'exécuter $1 "$2"},
308     'err_inactive'                     => q{ERREUR: Noeud $1 n'est pas active (état = $2)},
309     'err_cluster_empty'                => q{ERREUR: Groupe chargé contient pas de noeuds},
310     'err_cluster_offline'              => q{ERREUR: Groupe chargé contient pas de noeuds accessibles},
311     'err_cluster_lone'                 => q{ERRRUE: Groupe chargé ne contient que 1 noeud},
312     'err_not_origin'                   => q{ERREUR: Noeud $1 n'est pas à l'origine de tous les jeux},
313     'err_not_provider'                 => q{ERREUR: Noeud $1 n'est pas un fournisseur de tous les jeux},
314     'err_not_provider_sets'            => q{ERREUR: Noeud $1 ne fournit pas les ensembles nécessaires: le besoin ($2), mais fournit ($3)},
315     'err_no_configuration'             => q{ERREUR: Impossible de lire la configuration pour le noeud $1},
316     'err_must_enter_node_id'           => q{ERREUR: Vous devez entrer un id de noeud},
317     'err_not_a_node_id'                => q{ERREUR: Je n'ai pas connaissance d'un $1 de noeud},
318     'err_same_node'                    => q{ERREUR: Cant déplacer depuis et vers le même noeud},
319     'err_node_offline'                 => q{ERREUR: $1 noeud ($2) n'est pas disponible},
320     'err_incomplete_preamble'          => q{ERREUR: Préambule incomplète},
321     'err_running_slonik'               => q{ERREUR: Ne pouvait pas courir slonik: $1},
322     'err_pgsql_connect'                => q{ERREUR: Impossible de se connecter au serveur postgres},
323     'slonik_output'                    => q{SLONIK: $1},
324     'exit_noaction'                    => q{Quitter, aucune action n'a été prise},
325     'exit'                             => q{Quitter par $1}
326     }
327 );
328
329
330 # Setup date variables
331 my ($g_year, $g_month, $g_day, $g_hour, $g_min, $g_sec) = (localtime(time))[5,4,3,2,1,0];
332 my $g_date = sprintf ("%02d:%02d:%02d on %02d/%02d/%04d", $g_hour, $g_min, $g_sec, $g_day, $g_month+1, $g_year+1900);
333
334 # Handle command line options
335 Getopt::Long::Configure('no_ignore_case');
336 use vars qw{%opt};
337 die lookupMsg('usage') unless GetOptions(\%opt, 'host|H=s', 'port|p=i', 'dbname|db=s', 'clname|cl=s', 'dbuser|u=s', 'dbpass|P=s', 'cfgfile|f=s', 'infoprint|I', ) and keys %opt and ! @ARGV;
338
339 # Read configuration
340 if (defined($opt{cfgfile})) {
341     unless (getConfig($opt{cfgfile})) {
342         println(lookupMsg('err_no_config'));
343         exit(1);
344     }
345 }
346 else {
347     if (defined($opt{dbname})) {
348         $g_dbname = $opt{dbname};
349     }
350     if (defined($opt{clname})) {
351         $g_clname = $opt{clname};
352     }
353     if (defined($opt{host})) {
354         $g_dbhost = $opt{host};
355     }
356     if (defined($opt{port})) {
357         $g_dbport = $opt{port};
358     }
359     if (defined($opt{dbuser})) {
360         $g_dbuser = $opt{dbuser};
361     }
362     if (defined($opt{dbpass})) {
363         $g_dbpass = $opt{dbpass};
364     }
365 }
366
367 # Fill in any missing values with defaults or display message and die
368 if (!defined($g_dbname)) {
369     println(lookupMsg('err_no_database'));
370     die lookupMsg('usage');
371 }
372 if (!defined($g_clname)) {
373     println(lookupMsg('err_no_cluster'));
374     die lookupMsg('usage');
375 }
376 if (!defined($g_dbhost)) {
377     println(lookupMsg('err_no_host'));
378     die lookupMsg('usage');
379 }
380
381
382 # Build conninfo from supplied datbase name/host/port
383 $g_dbconninfo = "dbname=$g_dbname;host=$g_dbhost;port=$g_dbport";
384
385 if (!defined($opt{infoprint})) {
386     # Check prefix directory and create if not present
387     unless(-e $g_prefix or mkdir $g_prefix) {
388         println(lookupMsg('err_mkdir_fail', 'prefix', $g_prefix));
389         exit(2);
390     }
391
392     if ($g_separate_working) {
393         if ($g_prefix !~ m/\/$/) {
394             $g_prefix .= "/";
395         }
396
397         # Get a uuid for working directory
398         $g_prefix .= getUUID($g_date);
399
400         # Create a working directory and setup log file
401         unless(-e $g_prefix or mkdir $g_prefix) {
402             println(lookupMsg('err_mkdir_fail', 'work', $g_prefix));
403         }
404     }
405 }
406
407 # Set postgres path if provided
408 if (defined($g_slonikpath) && ($g_slonikpath ne "")) {
409     $ENV{PATH} .= ":$g_slonikpath";
410 }
411
412 # Check if autofailover is enabled, if so check configuration and enter autofailover mode
413 if (($g_autofailover) && !defined($opt{infoprint})) {
414
415     # Write out a PID file
416     if (writePID($g_prefix, $g_logfile, $g_log_prefix, $g_pidfile)) {
417         $g_pid_written = true;
418     }
419     else {
420         cleanExit(1, "system");
421     }
422     
423     # Go into endless loop for autofailover
424     autoFailover($g_dbconninfo, $g_clname, $g_dbuser, $g_dbpass, $g_prefix, $g_logfile, $g_log_prefix);
425 }
426
427 # Read slony configuration and output some basic information
428 eval {
429     #local $| = 1;
430     println(lookupMsg('load_cluster', $g_prefix));
431     ($g_node_count, $g_version) = loadCluster($g_dbconninfo, $g_clname, $g_dbuser, $g_dbpass, $g_prefix, $g_logfile, $g_log_prefix);
432 };
433 if ($@) {
434     println(lookupMsg('load_cluster_fail', 'from supplied configuration'));
435     cleanExit(2, "system");
436 }
437
438 if (defined($opt{infoprint})) {
439     println(lookupMsg('load_cluster_success', $g_version, $g_clname, $g_node_count, $g_dbhost, $g_dbport, $g_dbname) . ":");
440     chooseNode("info", undef, undef, undef, 0);
441     exit(0);
442 }
443 else {
444     printlog($g_prefix,$g_logfile,$g_log_prefix,"*"x68 . "\n* ");
445     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('title', $g_script_version));
446     printlogln($g_prefix,$g_logfile,$g_log_prefix,"*"x68);
447 }
448
449 if ($g_node_count <= 0) {
450     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_cluster_empty'));
451     cleanExit(3, "system");
452 }
453 else {
454     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('load_cluster_success', $g_version, $g_clname, $g_node_count, $g_dbhost, $g_dbport, $g_dbname));
455     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('script_settings', $g_lockset_method, $g_failover_method, uc($g_resubscribe_method)));
456 }
457
458 # Output lag information between each node and node configuration was read from
459 if (loadLag($g_dbconninfo, $g_clname, $g_dbuser, $g_dbpass, $g_prefix, $g_logfile, $g_log_prefix) > 0) {
460     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('lag_detail'));
461     foreach (@g_lags) {
462         printlogln($g_prefix,$g_logfile,$g_log_prefix,"\t$_");
463     }
464     printlog($g_prefix,$g_logfile,$g_log_prefix,"\n");
465 }
466
467 # Prompt user to choose nodes to move sets from / to
468 $g_node_from = chooseNode("from", $g_prefix, $g_logfile, $g_log_prefix, 0);
469 if ($g_node_from == 0) {
470     cleanExit(4, "user");
471 }
472 elsif ($g_node_from == -1) {
473     cleanExit(5, "system");
474 }
475
476 $g_node_to = chooseNode("to", $g_prefix, $g_logfile, $g_log_prefix, $g_node_from);
477 if ($g_node_to == 0) {
478     cleanExit(6, "user");
479 }
480 elsif ($g_node_to == -1) {
481     cleanExit(7, "system");
482 }
483 elsif ($g_node_from == $g_node_to) {
484     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_same_node'));
485     cleanExit(8, "system");
486 }
487
488 # Check nodes are available and decide on action to take
489 printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_check_nodes'));
490 ($g_available_node_count, $g_critical_node_count) = checkNodes($g_clname, $g_dbuser, $g_dbpass, $g_node_from, $g_node_to, $g_prefix, $g_logfile, $g_log_prefix);
491
492 if ($g_available_node_count <= 0) {
493     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_cluster_offline'));
494     cleanExit(9, "system");
495 }
496 elsif ($g_critical_node_count == -1) {
497     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_node_offline', 'Target new origin', $g_node_to));
498     cleanExit(10, "system");
499 }
500 elsif ($g_critical_node_count == -2) {
501     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_node_offline', 'Old origin', $g_node_from));
502     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_action', 'FAILOVER'));
503     $g_failover = true;
504 }
505 elsif ($g_critical_node_count == 0) {
506     if ($g_node_count == $g_available_node_count) {
507         printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('info_all_nodes_available'));
508     }
509     else {
510         printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('info_req_nodes_available', $g_available_node_count, $g_node_count));
511     }
512     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_action', 'MOVE SET'));
513 }
514 elsif ($g_critical_node_count > 0) {
515     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('wrn_req_unavailable', $g_node_from, $g_critical_node_count));
516     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('note_reshape_cluster'));
517     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('exit_noaction'));
518     cleanExit(11, "user");
519 }
520 else {
521     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_surrender'));
522     cleanExit(12, "system");
523 }
524 $g_input = <>;
525 chomp($g_input);
526 if ($g_input !~ /^[Y|O]$/i) {
527     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('exit_noaction'));
528     cleanExit(13, "user");
529 }
530
531 if (!$g_use_comment_aliases) {
532     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_aliases'));
533     $g_input = <>;
534     chomp($g_input);
535     if ($g_input =~ /^[Y|O]$/i) {
536         $g_use_comment_aliases = true;
537     }
538 }
539
540 if ($g_failover) {
541     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_summary'));
542
543     foreach (@g_failed) {
544         printlogln($g_prefix,$g_logfile,$g_log_prefix,"\t" . lookupMsg('interactive_node_info',$_->[0],($_->[4] // "unnamed"),(defined($_->[9]) ? "providing sets $_->[9]" : "sole subscriber"), $_->[2])); 
545     }
546
547     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_failover_detail_1'));
548     printlogln($g_prefix,$g_logfile,$g_log_prefix,"\t" . lookupMsg('interactive_failover_detail_2'));
549     printlogln($g_prefix,$g_logfile,$g_log_prefix,"\t" . lookupMsg('interactive_failover_detail_3'));
550     printlogln($g_prefix,$g_logfile,$g_log_prefix,"\t" . lookupMsg('interactive_failover_detail_4'));
551
552     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_drop_nodes'));
553     $g_input = <>;
554     if ($g_input ~~ /^[Y|O]$/i) {
555         $g_drop_failed = true;
556     }
557
558     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_reason'));
559     $g_reason = <>;
560     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_continue'));
561     $g_input = <>;
562     chomp($g_input);
563     if ($g_input !~ /^[Y|O]$/i) {
564         printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('exit_noaction'));
565         cleanExit(14, "user");
566     }
567
568     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_write_script', 'failover from', $g_node_from, $g_node_to));
569     $g_script = writeFailover($g_prefix, $g_dbconninfo, $g_clname, $g_dbuser, $g_dbpass, $g_node_from, $g_node_to, $g_subs_follow_origin, $g_use_comment_aliases, $g_logfile, $g_log_prefix);    
570 }
571 else {
572     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_preserve'));
573     $g_input = <>;
574     chomp($g_input);
575     if ($g_input =~ /^[Y|O]$/i) {
576         $g_subs_follow_origin = true;
577     }
578
579     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_reason'));
580     $g_reason = <>;
581
582     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_write_script', 'move all sets provided by', $g_node_from, $g_node_to));
583     $g_script = writeMoveSet($g_prefix, $g_dbconninfo, $g_clname, $g_dbuser, $g_dbpass, $g_node_from, $g_node_to, $g_subs_follow_origin, $g_use_comment_aliases, $g_logfile, $g_log_prefix);    
584 }
585
586 # Complete and run script if required
587 if (-e $g_script) {
588     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('generated_script', $g_script));
589     printlog($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_run_script', $g_script));
590     $g_input = <>;
591     chomp($g_input);
592     if ($g_input =~ /^[Y|O]$/i) {
593         printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('interactive_running'));
594         unless (runSlonik($g_script, $g_prefix, $g_logfile, $g_log_prefix)) {
595             printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_execute_fail', 'slonik script', $g_script));
596         }
597     }
598     else {
599         printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('exit_noaction'));
600     }
601 }
602 else {
603     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('err_read_fail', 'slonik script', $g_script));
604     cleanExit(15, "system");
605 }
606
607 cleanExit(0, "script completion");
608
609 ###########################################################################################################################################
610
611 sub cleanExit {
612     my $exit_code = shift;
613     my $type = shift;
614
615     printlogln($g_prefix,$g_logfile,$g_log_prefix,lookupMsg('exit', $type));
616
617     if ($g_log_to_db) {    
618         eval {
619            logDB("dbname=$g_logdb_name;host=$g_logdb_host;port=$g_logdb_port", $g_logdb_user, $g_logdb_pass, $exit_code, $g_reason, $g_prefix, $g_logfile, $g_log_prefix, $g_clname, $g_script);
620         };
621     }
622
623     if ($g_pid_written) {
624         removePID($g_prefix, $g_logfile, $g_log_prefix, $g_pidfile);
625     }
626
627     exit($exit_code);
628 }
629
630 sub sigExit {
631     cleanExit(100,'signal');    
632 }
633
634 sub checkNodes {
635     my $clname = shift;
636     my $dbuser = shift;
637     my $dbpass = shift;
638     my $from = shift;
639     my $to = shift;
640     my $prefix = shift;
641     my $logfile = shift;
642     my $log_prefix = shift;
643
644     my $dsn;
645     my $dbh;
646     my $sth;
647     my $query;
648     my $result_count = 0;
649     my $critical_count = 0;
650
651     my @subsets;
652     my @origsets;
653
654     undef @g_failed;
655     undef @g_unresponsive;
656     undef %g_backups;
657
658     foreach (@g_cluster) {
659         if ($_->[0] == $from) {
660             @origsets = split(',', $_->[3]); 
661             last;
662         }
663     }
664
665     foreach (@g_cluster) {
666         if ($g_debug) {
667             printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_cluster', $_->[0],($_->[1] // "<NONE>"),$_->[2],($_->[3] // "<NONE>"),$_->[4],($_->[5] // "<NONE>") . "(" . ($_->[8] // "<NONE>") . ")",$_->[6],($_->[7] // "<NONE>"),($_->[9] // "<NONE>") . " (" . ($_->[10] // "<NONE>") . ")"));
668         }
669             
670         $dsn = "DBI:Pg:$_->[2];";
671         eval {
672             $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
673             $query = "SELECT count(*) FROM pg_namespace WHERE nspname = ?";
674             $sth = $dbh->prepare($query);
675             $sth->bind_param(1, "_" . $clname);
676             $sth->execute();
677         
678             $result_count = $result_count+$sth->rows;        
679
680             $sth->finish;
681             $dbh->disconnect();
682
683         };
684         if ($@) {
685             # Critical count will be -1 if the new origin is down, -2 if the old origin is down or positive if subscribers to sets on old origin are down.
686             printlogln($prefix,$logfile,$log_prefix,lookupMsg('wrn_node_unavailable', $_->[0]));
687             if ($g_debug) {
688                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
689             }
690             if ($_->[0] == $to) {
691                 $critical_count = -1;        
692             }
693             elsif ($_->[0] == $from) {
694                 $critical_count = -2;        
695             }
696             else {
697                 foreach my $subprov (split(';', $_->[5])) {
698                     my ($node, $setlist) = (split('->', $subprov)) ;
699                     $node =~ s/n//g;
700                     $setlist =~ s/(\)|\(|s)//g;
701                     @subsets = (split(',', $setlist));
702
703                     if (($critical_count >= 0) && (checkSubscribesAnySets(\@origsets, \@subsets))) {
704                         $critical_count++;    
705                     }
706                 }
707             }
708             # Only push nodes with active subscribers to sets into failed list unless explicitly told to
709             if (($g_fail_subonly) || (defined($_->[9]))) {
710                 push(@g_failed, \@$_);
711                 $g_backups{$_->[0]} = $to;
712             }
713             push(@g_unresponsive, \@$_);
714         }    
715         
716     }
717     return ($result_count, $critical_count);
718 }
719
720 sub loadCluster {
721     my $dbconninfo = shift;
722     my $clname = shift;
723     my $dbuser = shift;
724     my $dbpass = shift;
725     my $prefix = shift;
726     my $logfile = shift;
727     my $log_prefix = shift;
728
729     my $dsn;
730     my $dbh;
731     my $sth;
732     my $query;
733     my $version;
734     my $qw_clname;
735     undef @g_cluster;
736
737     if ($g_debug) {
738         printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_cluster_load', $dbconninfo));
739     }
740
741     $dsn = "DBI:Pg:$dbconninfo;";
742     eval {
743         $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
744         $qw_clname = $dbh->quote_identifier("_" . $clname);
745
746         $query = "SELECT $qw_clname.getModuleVersion()";
747         $sth = $dbh->prepare($query);
748         $sth->execute();
749         ($version) = $sth->fetchrow; 
750         $sth->finish;
751
752         $query = "WITH z AS (
753                 SELECT a.no_id, b.sub_provider AS no_prov,
754                     COALESCE(c.pa_conninfo,(SELECT pa_conninfo FROM $qw_clname.sl_path WHERE pa_server = $qw_clname.getlocalnodeid(?) LIMIT 1)) AS no_conninfo,
755                     array_to_string(array(SELECT set_id FROM $qw_clname.sl_set WHERE set_origin = a.no_id ORDER BY set_id),',') AS origin_sets,
756                     string_agg(CASE WHEN b.sub_receiver = a.no_id AND b.sub_forward AND b.sub_active THEN b.sub_set::text END, ',' ORDER BY b.sub_set) AS prov_sets,
757                     coalesce(trim(regexp_replace(substring(a.no_comment from E'\\\\((.+)\\\\)'), '[^0-9A-Za-z]','_','g')), 'node' || a.no_id) AS no_name,
758                     'n' || b.sub_provider || '->(' || string_agg(CASE WHEN b.sub_receiver = a.no_id THEN 's' || b.sub_set END,',' ORDER BY b.sub_set,',') || ')' AS sub_tree,
759                     coalesce(trim(regexp_replace(substring(d.no_comment from E'\\\\((.+)\\\\)'), '[^0-9A-Za-z]','_','g')), 'node' || b.sub_provider, '')
760                     || '->(' || string_agg(CASE WHEN b.sub_receiver = a.no_id THEN coalesce(trim(regexp_replace(e.set_comment, '[^0-9A-Za-z]', '_', 'g')), 'set' || b.sub_set) END,',' ORDER BY b.sub_set) || ')' AS sub_tree_name,
761                     CASE " . ((substr($version,0,3) >= 2.2) ? "WHEN a.no_failed THEN 'FAILED' " : "") . "WHEN a.no_active THEN 'ACTIVE' ELSE 'INACTIVE' END AS no_status,
762                     array_to_string(array(SELECT DISTINCT sub_set::text FROM $qw_clname.sl_subscribe WHERE sub_provider = a.no_id AND sub_active ORDER BY sub_set),',') AS prov_sets_active,
763                     string_agg(CASE WHEN b.sub_receiver = a.no_id THEN b.sub_set::text END,',' ORDER BY b.sub_set,',') AS sub_sets    
764                 FROM $qw_clname.sl_node a
765                 LEFT OUTER JOIN $qw_clname.sl_subscribe b ON a.no_id = b.sub_receiver
766                 LEFT OUTER JOIN $qw_clname.sl_path c ON c.pa_server = a.no_id AND c.pa_client = $qw_clname.getlocalnodeid(?)
767                 LEFT OUTER JOIN $qw_clname.sl_node d ON b.sub_provider = d.no_id
768                 LEFT OUTER JOIN $qw_clname.sl_set e ON b.sub_set = e.set_id
769                 GROUP BY b.sub_provider, a.no_id, a.no_comment, c.pa_conninfo, d.no_comment, a.no_active
770                 ORDER BY a.no_id
771                 )
772                 SELECT no_id,
773                     nullif(string_agg(no_prov::text, ',' ORDER BY no_prov),'') AS no_provs,
774                     no_conninfo,
775                     nullif(string_agg(origin_sets::text, ',' ORDER BY origin_sets),'') AS origin_sets,
776                     no_name,
777                     nullif(string_agg(sub_tree, ';' ORDER BY sub_tree),'') AS no_sub_tree,
778                     no_status,
779                     nullif(string_agg(prov_sets::text, ',' ORDER BY prov_sets),'') AS prov_sets,
780                     nullif(string_agg(sub_tree_name, ';' ORDER BY sub_tree_name),'') AS no_sub_tree_name,
781                     nullif(string_agg(prov_sets_active::text, ',' ORDER BY prov_sets_active),'') AS prov_sets_active,
782                     nullif(string_agg(sub_sets::text, ',' ORDER BY sub_sets),'') AS no_subs
783                 FROM z GROUP BY no_id, no_conninfo, no_name, no_status";
784         $sth = $dbh->prepare($query);
785
786         $sth->bind_param(1, "_" . $clname);
787         $sth->bind_param(2, "_" . $clname);
788
789         $sth->execute();
790
791         while (my @node = $sth->fetchrow) { 
792             #printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', join(' - ', @node)));
793             push(@g_cluster,  \@node);
794         }
795
796         $sth->finish;
797
798         $dbh->disconnect();
799     };
800     if ($@) {
801         if ($g_debug) {
802             printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
803         }
804         die lookupMsg('err_pgsql_connect');
805     }
806     else {
807         #if (substr($version,0,1) < 2) {
808         #    printlogln($prefix,$logfile,$log_prefix,lookupMsg('wrn_not_tested', $version));
809         #}
810         if (($g_use_try_blocks) && ($g_lockset_method eq 'multiple') && (substr($version,0,3) <= 9.9)) {
811             # It's currently not possible to lock multiple sets at a time within a try block (v2.2.2), leave the logic in and set a high version number for now.
812             printlogln($prefix,$logfile,$log_prefix, lookupMsg('note_multiple_try', $version));
813             $g_lockset_method = 'single';
814         }
815         if (substr($version,0,3) >= 2.2) {
816             $g_failover_method = 'new';
817             $g_resubscribe_method = 'resubscribe';
818         }
819         else {
820             unless ($g_silence_notice) {
821                 if ((substr($version,0,3) >= 2.0) && (substr($version,0,3) < 2.2)) {
822                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('wrn_failover_issues', $version));
823                 }
824                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('note_autofail_fwd_only'));
825                 $g_silence_notice = true;
826             }
827             if ($g_fail_subonly) {
828                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('note_fail_sub_only'));
829                 $g_fail_subonly = false;
830             }
831         }
832         
833     }
834
835     return (scalar(@g_cluster), $version);
836 }
837
838 sub loadSets {
839     my $dbconninfo = shift;
840     my $clname = shift;
841     my $nodenumber = shift;
842     my $dbuser = shift;
843     my $dbpass = shift;
844     my $prefix = shift;
845     my $logfile = shift;
846     my $log_prefix = shift;
847     
848     my $dsn;
849     my $dbh;
850     my $sth;
851     my $query;
852     my $qw_clname;
853
854     @g_sets = ();
855     
856     $dsn = "DBI:Pg:$dbconninfo;";
857     eval {
858         $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
859         $qw_clname = $dbh->quote_identifier("_" . $clname);
860         $query = "SELECT set_id, trim(regexp_replace(set_comment,'[^0-9,A-Z,a-z]','_','g')) FROM $qw_clname.sl_set WHERE set_origin = ? ORDER BY set_id;";
861
862         $sth = $dbh->prepare($query);
863         $sth->bind_param(1, $nodenumber);
864
865         $sth->execute();
866
867         while (my @set = $sth->fetchrow) { 
868             push(@g_sets,  \@set);
869         }
870
871         $sth->finish;
872         $dbh->disconnect();
873     };
874     if ($@) {
875         if ($g_debug) {
876             printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
877         }
878         die lookupMsg('err_pgsql_connect');
879     }
880
881     return scalar(@g_sets);
882 }
883
884 sub loadLag {
885     my $dbconninfo = shift;
886     my $clname = shift;
887     my $dbuser = shift;
888     my $dbpass = shift;
889     my $prefix = shift;
890     my $logfile = shift;
891     my $log_prefix = shift;
892
893     my $dsn;
894     my $dbh;
895     my $sth;
896     my $query;
897     my $qw_clname;
898
899     @g_lags = ();
900
901     $dsn = "DBI:Pg:$dbconninfo;";
902     eval {
903         $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
904         $qw_clname = $dbh->quote_identifier("_" . $clname);
905         $query = "SELECT a.st_origin || ' (' || coalesce(trim(regexp_replace(substring(b.no_comment from E'\\\\((.+)\\\\)'), '[^0-9A-Za-z]','_', 'g')), 'node' || b.no_id) || ')<->'
906                 || a.st_received || ' (' || coalesce(trim(regexp_replace(substring(c.no_comment from E'\\\\((.+)\\\\)'), '[^0-9A-Za-z]','_', 'g')), 'node' || c.no_id) || ') Events: '
907                 || a.st_lag_num_events || ' Time: ' || a.st_lag_time 
908             FROM $qw_clname.sl_status a
909             INNER JOIN $qw_clname.sl_node b on a.st_origin = b.no_id
910             INNER JOIN $qw_clname.sl_node c on a.st_received = c.no_id";
911
912         $sth = $dbh->prepare($query);
913         $sth->execute();
914
915         while (my $lag = $sth->fetchrow) { 
916             push(@g_lags,  $lag);
917         }
918
919         $sth->finish;
920         $dbh->disconnect();
921     };
922     if ($@) {
923         if ($g_debug) {
924             printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
925         }
926         die lookupMsg('err_pgsql_connect');
927     }
928
929     return scalar(@g_lags);
930 }
931
932 sub chooseNode {
933     my $type = shift;
934     my $prefix = shift;
935     my $logfile = shift;
936     my $log_prefix = shift;
937     my $last_choice = shift;
938     my $line;
939     my $choice;
940     my %options;
941     my $ok;
942     my @sets_from;
943     my @sets_to;
944     my $found = false;
945
946     $line = sprintf "%-4s %-14s %-10s %-24s %-s\n", lookupMsg('interactive_head_id'), lookupMsg('interactive_head_name'), lookupMsg('interactive_head_status'), lookupMsg('interactive_head_providers'), lookupMsg('interactive_head_config');
947     printlog($prefix,$logfile,$log_prefix,"$line");
948     $line = sprintf "%-4s %-14s %-10s %-24s %-s\n", "="x(length(lookupMsg('interactive_head_id'))), "="x(length(lookupMsg('interactive_head_name'))), "="x(length(lookupMsg('interactive_head_status'))), "="x(length(lookupMsg('interactive_head_providers'))), "="x(length(lookupMsg('interactive_head_config')));
949     printlog($prefix,$logfile,$log_prefix,"$line");
950
951     foreach (@g_cluster) {
952         $line = sprintf "%-4s %-14s %-10s %-24s %-s\n", $_->[0], $_->[4], $_->[6], ($_->[1] // "<NONE>"), (lookupMsg('interactive_detail_1') . ($_->[3] // "<NONE>"));
953         printlog($prefix,$logfile,$log_prefix,"$line");
954         $line = sprintf "%-55s %-s\n", " ", (lookupMsg('interactive_detail_2') . ($_->[7] // "<NONE>"));
955         printlog($prefix,$logfile,$log_prefix,"$line");
956         $line = sprintf "%-55s %-s\n", " ", (lookupMsg('interactive_detail_3') . ($_->[5] // "<NONE>"));
957         printlogln($prefix,$logfile,$log_prefix,"$line");
958         $options{$_->[0]} = {name => $_->[4], sets => ($_->[3] // ""), status => $_->[6], provider => $_->[7]};
959     }
960     if ($type !~ m/info/i) {
961         printlog($prefix,$logfile,$log_prefix,lookupMsg('interactive_choose_node', $type));
962         $choice = <>;
963         chomp($choice);
964     
965         if(exists($options{$choice})) {
966             if ($options{$choice}->{status} ne "ACTIVE") {
967                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_inactive', $choice, lc($options{$choice}->{status})));
968                 $choice = -1;
969             }
970             elsif (($type =~ m/from/i) && (length(trim($options{$choice}->{sets})) <= 0)) {
971                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_not_origin', $choice));
972                 $choice = -1;
973             }    
974             elsif ($type =~ m/to/i) {
975                 if (length(trim($options{$choice}->{provider})) <= 0) {
976                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_not_provider', $choice));
977                     $choice = -1;
978                 }
979                 else {
980                     foreach my $old_origin (@g_cluster) {
981                         if ($old_origin->[0] == $last_choice) {
982                             @sets_from = split(',', $old_origin->[3]);
983                             @sets_to =  split(',', $options{$choice}->{provider});
984                             if (checkProvidesAllSets(\@sets_from, \@sets_to)) {
985                                 $found = true;
986                             }
987                             else {
988                                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_not_provider_sets',$choice,$old_origin->[3],$options{$choice}->{providers}));
989                                 $choice = -1;
990                             }
991                             last;
992                         }
993                     }
994                     unless ($found) {
995                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_no_configuration', $last_choice));
996                         $choice = -1;
997                     } 
998                 }
999             }    
1000             else {
1001                 printlog($prefix,$logfile,$log_prefix,lookupMsg('interactive_confirm',$type,$choice,$options{$choice}->{name}));
1002                 $ok = <>;
1003                 chomp($ok);    
1004                 if ($ok !~ /^[Y|O]$/i) {
1005                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('exit_noaction'));
1006                     $choice = 0;
1007                 }
1008             }
1009         }
1010         elsif (!length($choice)) {
1011             printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_must_enter_node_id'));
1012             $choice = -1;
1013         }
1014         else {
1015             printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_not_a_node_id', $choice));
1016             $choice = -1;
1017         }
1018     }
1019
1020     return $choice;
1021 }
1022
1023 sub writePreamble {
1024     my $filename = shift;
1025     my $dbconninfo = shift;
1026     my $clname = shift;
1027     my $dbuser = shift;
1028     my $dbpass = shift;
1029     my $sets = shift;
1030     my $aliases = shift;
1031     my $prefix = shift;
1032     my $logfile = shift;
1033     my $log_prefix = shift;
1034     my $comment_all_failed = shift;
1035     my $set_count;
1036     my $line_prefix;
1037     my $success = false;
1038
1039     my ($year, $month, $day, $hour, $min, $sec) = (localtime(time))[5,4,3,2,1,0];
1040     my $date = sprintf ("%02d:%02d:%02d on %02d/%02d/%04d", $hour, $min, $sec, $day, $month+1, $year+1900);
1041
1042     if (open(SLONFILE, ">", $filename)) {    
1043         print SLONFILE ("# Script autogenerated on $date\n\n");
1044         print SLONFILE ("######\n# Preamble (cluster structure)\n######\n\n# Cluster name\n");
1045         if ($aliases) {
1046             print SLONFILE ("DEFINE slony_cluster_name $clname;\n");
1047             print SLONFILE ("CLUSTER NAME = \@slony_cluster_name;\n\n");
1048         }
1049         else {
1050             print SLONFILE ("CLUSTER NAME = $clname;\n\n");
1051         }
1052         foreach (@g_cluster) {
1053             $line_prefix = '';
1054             if (($comment_all_failed) && (exists $g_backups{$_->[0]})) {
1055                 $line_prefix = "# (Node $_->[0] unavailable) ";
1056             }
1057             elsif (!$g_fail_subonly) {
1058                 foreach my $unresponsive (@g_unresponsive) {
1059                     if (($_->[0] == $unresponsive->[0]) && !defined($_->[9]) && ($g_failover_method eq 'new')) {
1060                         $line_prefix = "# (Node $_->[0] unavailable subscriber only) ";
1061                     }
1062                 }
1063             }
1064             print SLONFILE ("# Preamble for node $_->[0] named $_->[4]\n");
1065             if ($aliases) {
1066                 print SLONFILE ($line_prefix . "DEFINE $_->[4] $_->[0];\n");
1067                 print SLONFILE ($line_prefix . "DEFINE $_->[4]_conninfo '$_->[2]';\n");
1068                 print SLONFILE ($line_prefix . "NODE \@$_->[4] ADMIN CONNINFO = \@$_->[4]_conninfo;\n\n");
1069             }
1070             else {
1071                 print SLONFILE ($line_prefix . "NODE $_->[0] ADMIN CONNINFO = '$_->[2]';\n\n");
1072             }
1073             if (($aliases) && ($sets)) {
1074                 $set_count = loadSets($dbconninfo, $clname, $_->[0], $dbuser, $dbpass, $prefix, $logfile, $log_prefix);
1075                 if ($set_count > 0) {
1076                     print SLONFILE ("# Sets provided (currently) by node $_->[0]\n");
1077                     foreach my $set (@g_sets) {
1078                         print SLONFILE ($line_prefix . "DEFINE $set->[1] $set->[0];\n");
1079                     }
1080                     print SLONFILE ("\n");
1081                 }
1082             }
1083         }    
1084         $success = true;
1085     }
1086     else {
1087         printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_write_fail', "script", $filename));
1088         $success = false; 
1089     }
1090     return $success;
1091 }
1092
1093 sub writeMoveSet {
1094     my $prefix = shift;
1095     my $dbconninfo = shift;
1096     my $clname = shift;
1097     my $dbuser = shift;
1098     my $dbpass = shift;
1099     my $from = shift;
1100     my $to = shift;
1101     my $subs = shift;
1102     my $aliases = shift;
1103     my $logfile = shift;
1104     my $log_prefix = shift;
1105     my $from_name;
1106     my $to_name;
1107     my $set_count;
1108     my $line_prefix;
1109     my $try_prefix = "";
1110     my ($year, $month, $day, $hour, $min, $sec) = (localtime(time))[5,4,3,2,1,0];
1111     my $filetime = sprintf ("%02d_%02d_%04d_%02d:%02d:%02d", $day, $month+1, $year+1900, $hour, $min, $sec);
1112     my $filename = $prefix . "/" . $clname . "-move_sets_from_" . $from . "_to_" . $to . "_on_" . $filetime . ".scr";
1113
1114     if ($g_use_try_blocks) {
1115         $try_prefix = "\t";
1116     }
1117  
1118     my @subprov_name;
1119     my $subprov_idx;
1120     my $subprov;
1121     my ($node, $setlist);
1122     my ($node_name, $setlist_name);
1123     my @subsets;
1124
1125     unless (writePreamble($filename, $dbconninfo, $clname, $dbuser, $dbpass, true, $aliases, $prefix, $logfile, $log_prefix, true)) {
1126         printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_incomplete_preamble'));
1127     }
1128
1129     foreach (@g_cluster) {
1130         if ($_->[0] == $from) {
1131             $from_name = $_->[4];
1132         }
1133         elsif ($_->[0] == $to) {
1134             $to_name = $_->[4];
1135         }
1136     }
1137
1138     if (open(SLONFILE, ">>", $filename)) {
1139
1140         print SLONFILE ("######\n# Actions (changes to cluster structure)\n######\n");
1141         
1142         $set_count = loadSets($dbconninfo, $clname, $from, $dbuser, $dbpass, $prefix, $logfile, $log_prefix);
1143         if ($set_count > 0) {
1144
1145             if ($g_lockset_method ne "single") {
1146                 if ($g_use_try_blocks) {
1147                     print SLONFILE ("TRY {\n");                
1148                 }
1149                 foreach (@g_sets) {
1150                     if ($aliases) {    
1151                         print SLONFILE ($try_prefix . "ECHO 'Locking set $_->[1] ($_->[0])';\n");
1152                         print SLONFILE ($try_prefix . "LOCK SET ( ID = \@$_->[1], ORIGIN = \@$from_name);\n");
1153                     }
1154                     else {
1155                         print SLONFILE ($try_prefix . "ECHO 'Locking set $_->[0]';\n");
1156                         print SLONFILE ($try_prefix . "LOCK SET ( ID = $_->[0], ORIGIN = $from);\n");
1157                     }
1158                 
1159                 }
1160                 print SLONFILE ("\n");
1161                 foreach (@g_sets) {
1162                     if ($aliases) {    
1163                         print SLONFILE ($try_prefix . "ECHO 'Moving set $_->[1] ($_->[0])';\n");
1164                         print SLONFILE ($try_prefix . "MOVE SET ( ID = \@$_->[1], OLD ORIGIN = \@$from_name, NEW ORIGIN = \@$to_name);\n");
1165                     }
1166                     else {
1167                         print SLONFILE ($try_prefix . "ECHO 'Moving set $_->[0]';\n");
1168                         print SLONFILE ($try_prefix . "MOVE SET ( ID = $_->[0], OLD ORIGIN = $from, NEW ORIGIN = $to);\n");
1169                     }
1170                 
1171                 }                
1172                 if ($g_use_try_blocks) {
1173                     print SLONFILE ("}\nON ERROR {\n");
1174                     foreach (@g_sets) {
1175                         if ($aliases) {    
1176                             print SLONFILE ($try_prefix . "ECHO 'Unlocking set $_->[1] ($_->[0])';\n");
1177                             print SLONFILE ($try_prefix . "UNLOCK SET ( ID = \@$_->[1], ORIGIN = \@$from_name);\n");
1178                         }
1179                         else {
1180                             print SLONFILE ($try_prefix . "ECHO 'Unlocking set $_->[0]';\n");
1181                             print SLONFILE ($try_prefix . "UNLOCK SET ( ID = $_->[0], ORIGIN = $from);\n");
1182                         }
1183                     }
1184                     print SLONFILE ("\tEXIT 1;\n}\nON SUCCESS {\n");
1185                 }
1186                 if ($aliases) {    
1187                     print SLONFILE ($try_prefix . "WAIT FOR EVENT (ORIGIN = \@$from_name, CONFIRMED = ALL, WAIT ON = \@$from_name, TIMEOUT = 0);\n");
1188                 }
1189                 else {
1190                     print SLONFILE ($try_prefix . "WAIT FOR EVENT (ORIGIN = $from, CONFIRMED = ALL, WAIT ON = $from, TIMEOUT = 0);\n");
1191                 }
1192                 if ($g_use_try_blocks) {
1193                     print SLONFILE ("}\n");
1194                 }
1195             }
1196             foreach (@g_sets) {
1197                 if ($g_lockset_method eq "single") {
1198                     if ($aliases) {    
1199                         print SLONFILE ("\nECHO 'Moving set $_->[1] ($_->[0])';\n");
1200                         if ($g_use_try_blocks) {
1201                             print SLONFILE ("TRY {\n");
1202                         }
1203                         print SLONFILE ($try_prefix . "LOCK SET ( ID = \@$_->[1], ORIGIN = \@$from_name);\n");
1204                         print SLONFILE ($try_prefix . "MOVE SET ( ID = \@$_->[1], OLD ORIGIN = \@$from_name, NEW ORIGIN = \@$to_name);\n");
1205                         if ($g_use_try_blocks) {
1206                             print SLONFILE ("}\nON ERROR {\n" . $try_prefix . "UNLOCK SET ( ID = \@$_->[1], ORIGIN = \@$from_name);\n" . $try_prefix . "EXIT 1;\n}\n");
1207                         }
1208                         print SLONFILE ("WAIT FOR EVENT (ORIGIN = \@$from_name, CONFIRMED = ALL, WAIT ON = \@$from_name, TIMEOUT = 0);\n");
1209                     }
1210                     else {
1211                         print SLONFILE ("\nECHO 'Moving set $_->[0]';\n");
1212                         if ($g_use_try_blocks) {
1213                             print SLONFILE ("TRY {\n");
1214                         }
1215                         print SLONFILE ($try_prefix . "LOCK SET ( ID = $_->[0], ORIGIN = $from);\n");
1216                         print SLONFILE ($try_prefix . "MOVE SET ( ID = $_->[0], OLD ORIGIN = $from, NEW ORIGIN = $to);\n");
1217                         if ($g_use_try_blocks) {
1218                             print SLONFILE ("}\nON ERROR {\n" . $try_prefix . "UNLOCK SET ( ID = $_->[0], ORIGIN = $from);\n" . $try_prefix . "EXIT 1;\n}\n");
1219                         }
1220                         print SLONFILE ("WAIT FOR EVENT (ORIGIN = $from, CONFIRMED = ALL, WAIT ON = $from, TIMEOUT = 0);\n");
1221                     }
1222                 }    
1223                 if (($subs) && ($g_resubscribe_method eq 'subscribe')) { 
1224     
1225                     foreach my $other_subs (@g_cluster) {
1226                         if (($other_subs->[6] eq "ACTIVE") && ($other_subs->[0] != $from) && ($other_subs->[0] != $to)) {
1227
1228                             if (exists $g_backups{$other_subs->[0]}) {
1229                                 $line_prefix = "# (Node $other_subs->[0] unavailable) ";
1230                             }
1231                             else {
1232                                 $line_prefix = '';
1233                             }
1234
1235                             # mess here needs cleaning up
1236                             @subprov_name = (split(';', $other_subs->[8]));
1237                             $subprov_idx = 0;
1238                             foreach $subprov (split(';', $other_subs->[5])) {
1239                                 ($node, $setlist) = (split('->', $subprov)) ;
1240                                 ($node_name, $setlist_name) = (split('->', $subprov_name[$subprov_idx])) ;
1241                                 $subprov_idx++;
1242                                 $node =~ s/n//g;
1243                                 $setlist =~ s/(\)|\(|s)//g;
1244                                 @subsets = (split(',', $setlist)) ;
1245
1246                                 if ($g_debug) {
1247                                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_resubscribe', $_->[1], $_->[0], $other_subs->[0], $other_subs->[4], $setlist, $setlist_name, $node, $node_name));
1248                                 }    
1249
1250                                 if ($_->[0] ~~ @subsets) {
1251                                     if ($node == $from) {
1252                                         if ($aliases) {
1253                                             print SLONFILE ($line_prefix . 
1254                                                 "ECHO 'Issuing subscribe for set $_->[1] ($_->[0]) provider $to_name ($to) -> " .
1255                                                 "receiver $other_subs->[4] ($other_subs->[0])';\n");
1256                                                    print SLONFILE ($line_prefix . 
1257                                                 "SUBSCRIBE SET ( ID = \@$_->[1], PROVIDER = \@$to_name, " .
1258                                                 "RECEIVER = \@$other_subs->[4], FORWARD = YES);\n");
1259                                         }
1260                                         else {
1261                                             print SLONFILE ($line_prefix . 
1262                                                 "ECHO 'Issuing subscribe for set $_->[1] ($_->[0]) provider $to -> " .
1263                                                 "receiver $other_subs->[0]';\n");
1264                                             print SLONFILE ($line_prefix . "SUBSCRIBE SET ( ID = $_->[0], PROVIDER = $to, " .
1265                                                 "RECEIVER = $other_subs->[0], FORWARD = YES);\n");
1266                                         }
1267                                     }
1268                                     else {
1269                                         if ($aliases) {
1270                                             print SLONFILE ($line_prefix . 
1271                                                 "ECHO 'Issuing subscribe for set $_->[1] ($_->[0]) provider $node_name ($node) -> " . 
1272                                                 "receiver $other_subs->[4] ($other_subs->[0])';\n");
1273                                             print SLONFILE ($line_prefix . "SUBSCRIBE SET ( ID = \@$_->[1], PROVIDER = \@$node_name, " .
1274                                                 "RECEIVER = \@$other_subs->[4], FORWARD = YES);\n");
1275                                             }
1276                                             else {
1277                                                 print SLONFILE ($line_prefix . 
1278                                                 "ECHO 'Issuing subscribe for set $_->[1] ($_->[0]) provider $node -> " .
1279                                                 "receiver $other_subs->[0]';\n");
1280                                                 print SLONFILE ($line_prefix . "SUBSCRIBE SET ( ID = $_->[0], PROVIDER = $node, " .
1281                                                 "RECEIVER = $other_subs->[0], FORWARD = YES);\n");
1282                                         }
1283                                     }
1284                                 }
1285                             }
1286                         }
1287                     }
1288                 }    
1289             }
1290
1291             if (($subs) && ($g_resubscribe_method eq 'resubscribe')) { 
1292
1293                 foreach my $other_subs (@g_cluster) {
1294                     if (($other_subs->[6] eq "ACTIVE") && ($other_subs->[0] != $from) && ($other_subs->[0] != $to)) {
1295                         if (exists $g_backups{$other_subs->[0]}) {
1296                             $line_prefix = "# (Node $other_subs->[0] unavailable) ";
1297                         }
1298                         else {
1299                             $line_prefix = '';
1300                         }
1301
1302                         @subprov_name = (split(';', $other_subs->[8]));
1303                         $subprov_idx = 0;
1304                         foreach $subprov (split(';', $other_subs->[5])) {
1305                             ($node, $setlist) = (split('->', $subprov)) ;
1306                             ($node_name, $setlist_name) = (split('->', $subprov_name[$subprov_idx])) ;
1307                             $subprov_idx++;
1308                             $node =~ s/n//g;
1309     
1310                             print SLONFILE ("\n");
1311                             if ($node == $from) {
1312                                 if ($aliases) {
1313                                     print SLONFILE ($line_prefix .
1314                                         "ECHO 'Issuing resubscribe for provider $to_name ($to) -> receiver $other_subs->[4] ($other_subs->[0])';\n");
1315                                     print SLONFILE ($line_prefix .
1316                                         "RESUBSCRIBE NODE ( ORIGIN = \@$to_name, PROVIDER = \@$to_name, RECEIVER = \@$other_subs->[4]);\n");
1317                                  }
1318                                  else {
1319                                      print SLONFILE ($line_prefix .
1320                                         "ECHO 'Issuing resubscribe for provider $to -> receiver $other_subs->[0]';\n");
1321                                     print SLONFILE ($line_prefix . 
1322                                         "RESUBSCRIBE NODE ( ORIGIN = $to, PROVIDER = $to, RECEIVER = $other_subs->[0] );\n");
1323                                  }            
1324                             }
1325                             else {
1326                                 if ($aliases) {
1327                                     print SLONFILE ($line_prefix .
1328                                         "ECHO 'Issuing resubscribe for provider $node_name ($node) -> receiver $other_subs->[4] ($other_subs->[0])';\n");
1329                                     print SLONFILE ($line_prefix . 
1330                                         "RESUBSCRIBE NODE ( ORIGIN = \@$to_name, PROVIDER = \@$node_name, RECEIVER = \@$other_subs->[4]);\n");
1331                                 }
1332                                 else {
1333                                     print SLONFILE ($line_prefix .
1334                                         "ECHO 'Issuing resubscribe for provider $node -> receiver $other_subs->[0]';\n");
1335                                     print SLONFILE ($line_prefix .
1336                                         "RESUBSCRIBE NODE ( ORIGIN = $to, PROVIDER = $node, RECEIVER = $other_subs->[0]);\n");
1337                                 }
1338                             }
1339                         }
1340                     }
1341                 }
1342             }
1343
1344         }
1345
1346         if ($aliases) {    
1347             print SLONFILE ("\nECHO 'All sets originating from $from_name (id $from) have been moved to $to_name (id $to), ensure you modify any existing slonik scripts to reflect the new origin';\n");
1348         }
1349         else {
1350             print SLONFILE ("\nECHO 'All sets originating from node $from have been moved to node $to, ensure you modify the any existing slonik scripts to reflect the new origin';\n");
1351         }
1352         close (SLONFILE);
1353     }
1354     else {
1355         printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_write_fail', "script", $filename));
1356     }
1357     return $filename;
1358 }
1359
1360 sub writeFailover {
1361     my $prefix = shift;
1362     my $dbconninfo = shift;
1363     my $clname = shift;
1364     my $dbuser = shift;
1365     my $dbpass = shift;
1366     my $from = shift;
1367     my $to = shift;
1368     my $subs = shift;
1369     my $aliases = shift;
1370     my $logfile = shift;
1371     my $log_prefix = shift;
1372     my $filename;
1373     my $written;
1374     my $event_node;
1375     my ($year, $month, $day, $hour, $min, $sec) = (localtime(time))[5,4,3,2,1,0];
1376     my $filetime = sprintf ("%02d_%02d_%04d_%02d:%02d:%02d", $day, $month+1, $year+1900, $hour, $min, $sec);
1377     my $sets = false;
1378
1379     my $subprov_idx;
1380     my @subprov_name;
1381     my ($node, $setlist);
1382     my ($node_name, $setlist_name);
1383     my @subsets;
1384     my @subsets_name;
1385     my $set_idx;
1386     my @dropped;
1387
1388     if (defined($from) && defined($to)) {
1389         $filename = $prefix . "/" . $clname . "-failover_from_" . $from . "_to_" . $to . "_on_" . $filetime . ".scr";
1390     }
1391     else {
1392         $filename = $prefix . "/" . $clname . "-autofailover_on_" . $filetime . ".scr";
1393     }
1394
1395     if ($g_failover_method ne 'new') {
1396         # For pre 2.2 failover with multiple nodes, we attempt to resubscribe sets and drop other failed providers;
1397         # This will never work as well as 2.2+ failover behaviour (infact failover may not work as all in 2.0/2.1 with multiple failed nodes)
1398         # We also need to define the sets in the preamble for this.
1399         $sets = true;
1400     }
1401
1402     unless (writePreamble($filename, $dbconninfo, $clname, $dbuser, $dbpass, $sets, $aliases, $prefix, $logfile, $log_prefix, false)) {
1403         printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_incomplete_preamble'));
1404     }
1405
1406     if (open(SLONFILE, ">>", $filename)) {
1407
1408         print SLONFILE ("######\n# Actions (changes to cluster structure)\n######\n\n");
1409         if ($g_debug) {
1410             printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_failover_method',$g_failover_method));
1411         }
1412
1413         # If we are on pre 2.2 we need to drop failed subscriber nodes first regardless
1414         if ($g_failover_method ne 'new') {
1415             foreach (@g_failed) {
1416                 if (!defined($_->[3])) {
1417                     foreach my $backup (@g_cluster) {
1418                         if ($backup->[0] == $g_backups{$_->[0]}) {  # this backup node candidate is in the list of suitable nodes for {failed node}
1419                             foreach my $subscriber (@g_cluster) {
1420                                 if (defined($subscriber->[1]) && $subscriber->[1] == $_->[0] && $subscriber->[0] != $backup->[0]) {
1421                                     # mess here needs cleaning up
1422                                     @subprov_name = (split(';', $subscriber->[8]));
1423                                     $subprov_idx = 0;
1424                                     foreach my $subprov (split(';', $subscriber->[5])) {
1425                                         ($node, $setlist) = (split('->', $subprov)) ;
1426                                         ($node_name, $setlist_name) = (split('->', $subprov_name[$subprov_idx])) ;
1427                                         $subprov_idx++;
1428                                         $node =~ s/n//g;
1429     
1430                                         if ($node == $_->[0]) {
1431                                             if ($aliases) {
1432                                                 print SLONFILE ("ECHO 'Resubscribing all sets on receiver $subscriber->[4] provided by other failed node $_->[4] to backup node $backup->[4]';\n");
1433                                             }
1434                                             else {
1435                                                 print SLONFILE ("ECHO 'Resubscribing all sets on receiver $subscriber->[0]  provided by other failed node $_->[0] to backup node $backup->[0]';\n");
1436                                             }
1437                                             $setlist =~ s/(\)|\(|s)//g;
1438                                             @subsets = (split(',', $setlist));
1439                                             $setlist_name =~ s/(\)|\()//g;
1440                                             @subsets_name = (split(',', $setlist_name));
1441                                         
1442                                             $set_idx = 0;
1443                                             foreach my $subset (@subsets) {
1444                                                 if ($aliases) {
1445                                                     print SLONFILE ("SUBSCRIBE SET (ID = \@$subsets_name[$set_idx], PROVIDER = \@$backup->[4], RECEIVER = \@$subscriber->[4], FORWARD = YES);\n");
1446                                                     print SLONFILE ("WAIT FOR EVENT (ORIGIN = \@$backup->[4], CONFIRMED = \@$subscriber->[4], WAIT ON = \@$backup->[4]);\n");
1447                                                 }
1448                                                 else {
1449                                                     print SLONFILE ("SUBSCRIBE SET (ID = $subset, PROVIDER = $backup->[0], RECEIVER = $subscriber->[0], FORWARD = YES);\n");
1450                                                     print SLONFILE ("WAIT FOR EVENT (ORIGIN = $backup->[0], CONFIRMED = $subscriber->[0], WAIT ON = $backup->[0]);\n");
1451                                                 }
1452                                                 $set_idx++;
1453                                             }
1454                                             print SLONFILE ("\n");
1455                                         }
1456                                     }
1457     
1458                                     if ($aliases) {
1459                                         print SLONFILE ("ECHO 'Dropping other failed node $_->[4] ($_->[0])';\n");
1460                                          print SLONFILE ("DROP NODE (ID = \@$_->[4], EVENT NODE = \@$backup->[4]);\n\n");
1461                                     }
1462                                     else {
1463                                         print SLONFILE ("ECHO 'Dropping other failed node $_->[0]';\n");
1464                                         print SLONFILE ("DROP NODE (ID = $_->[0], EVENT NODE = $backup->[0]);\n\n");
1465                                     }   
1466                                     push(@dropped, $_->[0]);
1467                                 }
1468                                 else {
1469                                     # The node is failed, but there are no downstream subscribers
1470                                 }
1471                             }
1472                             last;
1473                         }
1474                     }
1475                 }
1476             }
1477         }
1478
1479         foreach (@g_failed) {
1480             if (($g_failover_method eq 'new') || defined($_->[3])) {
1481                 foreach my $backup (@g_cluster) {
1482                     if ($backup->[0] == $g_backups{$_->[0]}) {
1483                         ## Here we have both details of the backup node and the failed node
1484                         if ($aliases) {
1485                             print SLONFILE ("ECHO 'Failing over slony cluster from $_->[4] (id $_->[0]) to $backup->[4] (id $backup->[0])';\n");
1486                         }
1487                         else {
1488                             print SLONFILE ("ECHO 'Failing over slony cluster from node $_->[0] to node $backup->[0]';\n");
1489                         }   
1490                         last;
1491                     }
1492                 }
1493             }
1494         }
1495
1496         print SLONFILE ("FAILOVER (\n\t");
1497         $written = 0;
1498         foreach (@g_failed) {
1499             if (($g_failover_method eq 'new') || defined($_->[3])) {
1500                 foreach my $backup (@g_cluster) {
1501                     if ($backup->[0] == $g_backups{$_->[0]}) {
1502                         ## Here we have both details of the backup node and the failed node
1503                         if ($g_failover_method eq 'new') {
1504                             if( $written != 0 ) {
1505                                 print SLONFILE (",\n\t");
1506                             }
1507                             print SLONFILE ("NODE = (");
1508                         }
1509                         else {
1510                             if( $written != 0 ) {
1511                                 print SLONFILE ("\n);\nFAILOVER (\n\t");
1512                             }
1513                         }
1514                         if ($aliases) {
1515                             print SLONFILE ("ID = \@$_->[4], BACKUP NODE = \@$backup->[4]");
1516                         }
1517                         else {
1518                             print SLONFILE ("ID = $_->[0], BACKUP NODE = $backup->[0]");
1519                         }
1520                         if ($g_failover_method eq 'new') {
1521                             print SLONFILE (")");
1522                         }
1523                         last;
1524                     }
1525                 }
1526                 $written++;
1527             }
1528         }
1529         print SLONFILE ("\n);\n\n");
1530
1531         if ($g_drop_failed) {
1532             if (($g_failover_method eq 'new')  && (scalar(@g_failed) > 1)) {
1533                 foreach (@g_failed) {
1534                     if ($aliases) {
1535                         print SLONFILE ("ECHO 'Dropping failed node $_->[4] ($_->[0])';\n");
1536                     }
1537                     else {
1538                         print SLONFILE ("ECHO 'Dropping failed node $_->[0]';\n");
1539                     }   
1540                 }
1541
1542                 print SLONFILE ("DROP NODE (ID = '");
1543                 undef $event_node;
1544             }
1545             $written = 0;
1546             foreach (@g_failed) {
1547                 foreach my $backup (@g_cluster) {
1548                     if ($backup->[0] == $g_backups{$_->[0]}) {
1549                         if (!defined($event_node)) {
1550                             if ($aliases) {
1551                                 $event_node = $backup->[4];
1552                             }
1553                             else {
1554                                 $event_node = $backup->[0];
1555                             }
1556                         } 
1557                         if (($g_failover_method eq 'new')  && (scalar(@g_failed) > 1)) {
1558                             if( $written != 0 ) {
1559                                 print SLONFILE (",");
1560                             }
1561                             ## Don't bother trying to define array values 
1562                             #if ($aliases) {
1563                             #    print SLONFILE "\@$_->[4]";
1564                             #}
1565                             #else {
1566                                 print SLONFILE $_->[0];
1567                             #}
1568                             $written++;
1569                         }
1570                         elsif (($g_failover_method eq 'new') || defined($_->[3]) || !($_->[0] ~~ @dropped)) {
1571                             if ($aliases) {
1572                                 print SLONFILE ("ECHO 'Dropping failed node $_->[4] ($_->[0])';\n");
1573                                 print SLONFILE ("DROP NODE (ID = \@$_->[4], EVENT NODE = \@$backup->[4]);\n\n");
1574                             }
1575                             else {
1576                                 print SLONFILE ("ECHO 'Dropping failed node $_->[0]';\n");
1577                                 print SLONFILE ("DROP NODE (ID = $_->[0], EVENT NODE = $backup->[0]);\n\n");
1578                             }
1579                         }
1580                         last;
1581                     }
1582                 }   
1583             }
1584             if (($g_failover_method eq 'new')  && (scalar(@g_failed) > 1)) {
1585                 if ($aliases) {
1586                      print SLONFILE ("', EVENT NODE = \@$event_node);\n");
1587                 }
1588                 else {
1589                      print SLONFILE ("', EVENT NODE = $event_node);\n");
1590                 }
1591             }
1592         }
1593
1594     }
1595     else {
1596         printlog($prefix,$logfile,$log_prefix,lookupMsg('err_write_fail', "script", $filename));
1597     }
1598     return $filename;
1599
1600 }
1601
1602 sub lookupMsg {
1603     my $name = shift || '?';
1604     my $line_call;
1605     my $text;
1606
1607     if (exists $message{$g_lang}{$name}) {
1608         $text = $message{$g_lang}{$name};
1609     }
1610     elsif (exists $message{'en'}{$name}) {
1611         $text = $message{'en'}{$name};
1612     }
1613     else {
1614         $line_call = (caller)[2];
1615         $text = qq{Failed to lookup text "$name" at line $line_call};
1616     }
1617
1618     my $x=1;
1619     {
1620         my $val = $_[$x-1];
1621         $val = '?' if ! defined $val;
1622         last unless $text =~ s/\$$x/$val/g;
1623         $x++;
1624         redo;
1625     }
1626     return $text;
1627 }
1628
1629 sub qtrim {
1630     my $string = shift;
1631     $string =~ s/^('|")+//;
1632     $string =~ s/('|")+$//;
1633     return $string;
1634 }
1635
1636 sub trim($) {
1637     my $string = shift;
1638     $string =~ s/^\s+//;
1639     $string =~ s/\s+$//;
1640     return $string;
1641 }
1642
1643 sub println {
1644     print ((@_ ? join($/, @_) : $_), $/);
1645 }
1646
1647 sub printlog {
1648     my $prefix = shift;
1649     my $logfile_name = shift;
1650     my $log_prefix = shift;
1651     my $message = shift;
1652     my $logfile;
1653     my $date;
1654
1655     print $message;
1656
1657     if (defined($logfile_name)) {
1658
1659         # Do we have to do this all the time? Perhaps could check parameters first
1660         if ($logfile_name =~ /^\//i) {
1661             $logfile = strftime($logfile_name, localtime);
1662         }
1663         else {
1664             $logfile = "$prefix/" . strftime($logfile_name, localtime);
1665         }
1666     
1667         if ($log_prefix =~ m/(\%[mt])/) {
1668             my ($year, $month, $day, $hour, $min, $sec) = (localtime(time))[5,4,3,2,1,0];
1669             my ($h_sec, $h_msec) = gettimeofday;
1670             $date = sprintf ("%02d-%02d-%04d %02d:%02d:%02d.%03d", $day, $month+1, $year+1900, $hour, $min, $sec, $h_msec/1000);
1671             $log_prefix =~ s/\%m/$date/g;
1672     
1673             $date = sprintf ("%02d-%02d-%04d %02d:%02d:%02d", $day, $month+1, $year+1900, $hour, $min, $sec);
1674             $log_prefix =~ s/\%t/$date/g;
1675         }
1676         if ($log_prefix =~ m/(\%p)/) {
1677             $log_prefix =~ s/\%p/$g_pid/g;
1678         }
1679
1680         if (open(LOGFILE, ">>", $logfile)) {
1681             print LOGFILE $log_prefix . " " . $message;
1682             close (LOGFILE);
1683         }
1684         else {
1685             println(lookupMsg('err_write_fail', "logfile", $logfile));
1686         }
1687     }
1688 }
1689
1690 sub printlogln {
1691     printlog ($_[0], $_[1], $_[2], $_[3] . $/);
1692 }
1693
1694 sub logDB {
1695     my $dbconninfo = shift;
1696     my $dbuser = shift;
1697     my $dbpass = shift;
1698     my $exit_code = shift;
1699     my $reason = shift;
1700     my $prefix = shift;
1701     my $logfile = shift;
1702     my $log_prefix = shift;
1703     my $clname = shift;
1704     my $script = shift;
1705
1706     my $dsn;
1707     my $dbh;
1708     my $sth;
1709     my $query;
1710
1711     my $results;
1712     my $script_data;
1713
1714     unless($results = (read_file($logfile))) { 
1715         printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_read_fail', "logfile", $logfile));
1716     }
1717
1718     if (defined($script) && (-e $script)) {
1719         unless ($script_data = (read_file($script))) { 
1720             printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_read_fail', "script file", $script));
1721         }
1722     }
1723     else {
1724         $script_data = "No script data was generated.";
1725         $script = "No script generated.";
1726     }
1727
1728     $dsn = "DBI:Pg:$dbconninfo;";
1729     eval {
1730         $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
1731         $query = "INSERT INTO public.failovers (reason, exit_code, results, script, cluster_name)
1732               VALUES (?, ?, ?, ?, ?)";
1733
1734         $sth = $dbh->prepare($query);
1735
1736         $sth->bind_param(1, $reason);
1737         $sth->bind_param(2, $exit_code);
1738         $sth->bind_param(3, $results);
1739         $sth->bind_param(4, $script . ":\n" . $script_data);
1740         $sth->bind_param(5, $clname);
1741
1742         $sth->execute();
1743
1744         $sth->finish;
1745         $dbh->disconnect();
1746     };
1747     if ($@) {
1748         if ($g_debug) {
1749             printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
1750         }
1751         die lookupMsg('err_pgsql_connect');
1752     }
1753
1754     return true;
1755 }
1756
1757 sub getUUID {
1758     my $date_string = shift;
1759     my $g_ug  = new Data::UUID;
1760     my $g_uuid = $g_ug->create_from_name("failover_script", $date_string);
1761     my $g_uuid_str  = $g_ug->to_string($g_uuid);
1762     return $g_uuid_str;
1763 }
1764
1765 sub writePID {
1766     my $prefix = shift;
1767     my $logfile = shift;
1768     my $log_prefix = shift;
1769     my $pidfile_name = shift;
1770     my $pidfile;
1771     my $success = true;
1772  
1773     if ($pidfile_name =~ /^\//i) {
1774         $pidfile = $pidfile_name;
1775     }
1776     else {
1777         $pidfile = "$prefix/" . $pidfile_name;
1778     }
1779     eval {
1780         open (PIDFILE, ">", $pidfile);
1781         print PIDFILE $$;
1782         close (PIDFILE);
1783     };
1784     if ($@) {
1785         if ($g_debug) {
1786             printlogln($prefix,$logfile,$log_prefix, lookupMsg('dbg_generic', $!));       
1787         }
1788         printlogln($prefix,$logfile,$log_prefix, lookupMsg('err_write_fail', "pid file", $pidfile));
1789         $success = false;
1790     }
1791     return $success;
1792 }
1793
1794 sub removePID {
1795     my $prefix = shift;
1796     my $logfile = shift;
1797     my $log_prefix = shift;
1798     my $pidfile_name = shift;
1799     my $pidfile;
1800     my $success = true;
1801
1802     if ($pidfile_name =~ /^\//i) {
1803         $pidfile = $pidfile_name;
1804     }
1805     else {
1806         $pidfile = "$prefix/" . $pidfile_name;
1807     }
1808     eval {
1809         if (-f $pidfile) {
1810             unlink $pidfile;
1811         }
1812         else {
1813             printlogln($prefix,$logfile,$log_prefix, lookupMsg('dbg_generic', 'PID file never existed to be removed'));
1814         } 
1815     };
1816     if ($@) {
1817         if ($g_debug) {
1818             printlogln($prefix,$logfile,$log_prefix, lookupMsg('dbg_generic', $!));
1819         }
1820         printlogln($prefix,$logfile,$log_prefix, lookupMsg('err_unlink_fail', "pid file", $pidfile));
1821         $success = false;
1822     }
1823     return $success;
1824 }
1825
1826 sub checkProvidesAllSets { 
1827     my ($originSets, $providerSets) = @_;
1828     my %test_hash;
1829
1830     undef @test_hash{@$originSets};       # add a hash key for each element of @$originSets
1831     delete @test_hash{@$providerSets};    # remove all keys for elements of @$providerSets
1832
1833     return !%test_hash;              # return false if any keys are left in the hash
1834 }
1835
1836 sub checkSubscribesAnySets {
1837     my ($originSets, $subscriberSets) = @_;
1838     my $before;
1839     my $after;
1840     my %test_hash;
1841
1842     undef @test_hash{@$originSets};       # add a hash key for each element of @$originSets
1843     $before = scalar(keys %test_hash);
1844     delete @test_hash{@$subscriberSets};    # remove all keys for elements of @$subscriberSets
1845     $after = scalar(keys %test_hash);
1846     return ($before != $after);        # return false if no keys were removed from the hash
1847 }
1848
1849 sub getConfig {
1850     my $cfgfile = shift;
1851     my @fields;
1852     my $success = false;
1853     my $value;
1854
1855     if (open(CFGFILE, "<", $cfgfile)) {
1856         foreach (<CFGFILE>) {
1857             chomp $_;
1858             for ($_) {
1859                 s/\r//;
1860                 #s/\#.*//;
1861                 s/#(?=(?:(?:[^']|[^"]*+'){2})*+[^']|[^"]*+\z).*//;
1862             }
1863             if (length(trim($_))) {
1864                 @fields = split('=', $_, 2);
1865                 given(lc($fields[0])) {
1866                     $value = qtrim(trim($fields[1]));
1867                     when(/\blang\b/i) {
1868                         $g_lang = $value;
1869                     }
1870                     when(/\bslony_database_host\b/i) {
1871                         $g_dbhost = $value;
1872                     }
1873                     when(/\bslony_database_port\b/i) {
1874                         $g_dbport = checkInteger($value);
1875                     }
1876                     when(/\bslony_database_name\b/i) {
1877                         $g_dbname = $value;
1878                     }
1879                     when(/\bslony_database_user\b/i) {
1880                         $g_dbuser = $value; 
1881                     }
1882                     when(/\bslony_database_password\b/i) {
1883                         $g_dbpass = $value; 
1884                     }
1885                     when(/\bslony_cluster_name\b/i) {
1886                         $g_clname = $value; 
1887                     }
1888                     when(/\benable_debugging\b/i) {
1889                         $g_debug = checkBoolean($value);
1890                     }
1891                     when(/\bprefix_directory\b/i) {
1892                         $g_prefix = $value;
1893                     }
1894                     when(/\bseparate_working_directory\b/i) {
1895                         $g_separate_working = checkBoolean($value);
1896                     }
1897                     when(/\bpid_filename\b/i) {
1898                         $g_pidfile = $value;
1899                     }
1900                     when(/\bfailover_offline_subscriber_only\b/i) {
1901                         $g_fail_subonly = checkBoolean($value);
1902                     }
1903                     when(/\bdrop_failed_nodes\b/i) {
1904                         $g_drop_failed = checkBoolean($value);
1905                     }
1906                     when(/\blog_line_prefix\b/i) {
1907                         $g_log_prefix = $value;
1908                     }
1909                     when(/\blog_filename\b/i) {
1910                         $g_logfile = $value;
1911                     }
1912                     when(/\blog_to_postgresql\b/i) {
1913                         $g_log_to_db = checkBoolean($value);
1914                     }
1915                     when(/\blog_database_host\b/i) {
1916                         $g_logdb_host = $value;
1917                     }
1918                     when(/\blog_database_port\b/i) {
1919                         $g_logdb_port = checkInteger($value);
1920                     }
1921                     when(/\blog_database_name\b/i) {
1922                         $g_logdb_name = $value;
1923                     }
1924                     when(/\blog_database_user\b/i) {
1925                         $g_logdb_user = $value;
1926                     }
1927                     when(/\blog_database_password\b/i) {
1928                         $g_logdb_pass = $value;
1929                     }
1930                     when(/\benable_try_blocks\b/i) {
1931                         $g_use_try_blocks = checkBoolean($value);
1932                     }
1933                     when(/\bpull_aliases_from_comments\b/i) {
1934                         $g_use_comment_aliases = checkBoolean($value);
1935                     }
1936                     when(/\bslonik_path\b/i) {
1937                         $g_slonikpath = $value;
1938                     }
1939                     when(/\blockset_method\b/i) {
1940                         $g_lockset_method = $value;
1941                     }
1942                     when(/\benable_autofailover\b/i) {
1943                         $g_autofailover = checkBoolean($value);
1944                     }
1945                     when(/\bautofailover_poll_interval\b/i) {
1946                         $g_autofailover_poll_interval = checkInteger($value);
1947                     }
1948                     when(/\bautofailover_node_retry\b/i) {
1949                         $g_autofailover_retry = checkInteger($value);
1950                     }
1951                     when(/\bautofailover_sleep_time\b/i) {
1952                         $g_autofailover_retry_sleep = checkInteger($value);
1953                     }
1954                     when(/\bautofailover_forwarding_providers\b/i) {
1955                         $g_autofailover_provs = checkBoolean($value);
1956                     }
1957                     when(/\bautofailover_config_any_node\b/i) {
1958                         $g_autofailover_config_any = checkBoolean($value);
1959                     }
1960                     when(/\bautofailover_perspective_sleep_time\b/i) {
1961                         $g_autofailover_perspective_sleep = checkInteger($value);
1962                     }
1963                     when(/\bautofailover_majority_only\b/i) {
1964                         $g_autofailover_majority_only = checkBoolean($value);
1965                     }
1966                     when(/\bautofailover_is_quorum\b/i) {
1967                         $g_autofailover_is_quorum  = checkBoolean($value);
1968                     }
1969                 }
1970             }
1971         }
1972         close (CFGFILE);
1973
1974         $success = true;
1975     }
1976     else {
1977         println(lookupMsg('err_fail_config'));
1978     }
1979
1980     return $success;
1981 }
1982
1983 sub checkBoolean {
1984     my $text = shift;
1985     my $value = undef;
1986     if ( grep /^$text$/i, ("y","yes","t","true","on") ) {
1987         $value = true;
1988     }
1989     elsif ( grep /^$text$/i, ("n","no","f","false","off") ) {
1990         $value = false;
1991     }
1992     return $value;
1993 }
1994
1995 sub checkInteger {
1996     my $integer = shift;
1997     my $value = undef;
1998
1999     if (($integer * 1) eq $integer) {
2000         $value = int($integer);
2001     }
2002     return $value;
2003 }
2004
2005
2006 sub runSlonik {
2007     my $script = shift;
2008     my $prefix = shift;
2009     my $logfile = shift;
2010     my $log_prefix = shift;
2011     my $success;
2012
2013     if ($g_debug) {
2014          printlogln($prefix,$logfile,$log_prefix, lookupMsg('dbg_slonik_script', $script));
2015     }
2016     if (open(SLONIKSTATUS, "-|", "slonik $script 2>&1")) {
2017         while (<SLONIKSTATUS>) {
2018             printlogln($prefix,$logfile,$log_prefix,lookupMsg('slonik_output', $_));
2019         }
2020         close(SLONIKSTATUS);
2021         $success = true;
2022     }
2023     else {
2024         printlogln($prefix,$logfile,$log_prefix, lookupMsg('err_running_slonik', $!));
2025         $success = false;
2026     }
2027     return $success;
2028 }
2029
2030 sub autoFailover {
2031     my $dbconninfo = shift;
2032     my $clname = shift;
2033     my $dbuser = shift;
2034     my $dbpass = shift;
2035     my $prefix = shift;
2036     my $logfile = shift;
2037     my $log_prefix = shift;
2038
2039     my $cluster_time;
2040     my $failed;
2041     my $actions;
2042     my $current_retry;
2043     my $cluster_loaded;
2044     my $cluster_loaded_from;
2045     my @cluster;
2046     my $node_count;
2047     my $version;
2048
2049     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_init'));
2050     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_init_cnf', ($g_autofailover_config_any ? 'any' : 'specified target')));
2051     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_init_pol', $g_autofailover_poll_interval));
2052     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_init_ret', $g_autofailover_retry, $g_autofailover_retry_sleep));
2053     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_init_set', ($g_autofailover_provs ? 'will' : 'will not')));
2054
2055     while (true) {  
2056         # Probe current cluster configuration every minute 
2057         if (!defined($cluster_time) || (time()-$cluster_time > 60)) {
2058
2059             $cluster_loaded = false;
2060             if (!defined($cluster_time) || !$g_autofailover_config_any) {
2061                 eval {
2062                     ($node_count, $version) = loadCluster($dbconninfo, $clname, $dbuser, $dbpass, $prefix, $logfile, $log_prefix);
2063                     die lookupMsg('err_cluster_empty') if ($node_count == 0);
2064                     @cluster = @g_cluster;
2065                     die lookupMsg('err_cluster_lone') if ($node_count == 1);
2066                     $cluster_loaded = true;
2067                     $cluster_loaded_from = 'conninfo specified in config';
2068                 };
2069                 if ($@) {
2070                     printlogln($prefix,$logfile,$log_prefix, lookupMsg('load_cluster_fail', 'from supplied configuration'));
2071                     if ($g_debug) {
2072                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
2073                     }
2074                 }
2075             }
2076             else {
2077                 foreach (@cluster) {
2078                     if ($_->[6]  eq "ACTIVE") {
2079                         unless ($cluster_loaded) {
2080                             eval {
2081                                 ($node_count, $version) = loadCluster($_->[2], $clname, $dbuser, $dbpass, $prefix, $logfile, $log_prefix);
2082                                 die lookupMsg('err_cluster_empty') if ($node_count == 0);
2083                                 @cluster = @g_cluster;
2084                                 die lookupMsg('err_cluster_lone') if ($node_count == 1);
2085                                 $cluster_loaded = true;
2086                                 $cluster_loaded_from = $_->[0];
2087                             };
2088                             if ($@) {
2089                                 printlogln($prefix,$logfile,$log_prefix, lookupMsg('load_cluster_fail', 'from node ' . $_->[0] . ': trying next node'));
2090                                 if ($g_debug) {
2091                                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
2092                                 }
2093                             }
2094                         }
2095                     }
2096                 }
2097             }
2098
2099             if ($cluster_loaded) {
2100                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_load_cluster', (!defined($cluster_time) ? "Loaded" : "Reloaded"), $version, $clname, $node_count, $cluster_loaded_from));
2101                 $cluster_time = time();
2102             }
2103             else {
2104                 printlogln($prefix,$logfile,$log_prefix, lookupMsg('load_cluster_fail', 'from any node'));
2105             }
2106         }
2107
2108         if ($cluster_loaded) {
2109             $current_retry = 0; 
2110             undef $failed;
2111             while(($current_retry <= $g_autofailover_retry) && ((!defined($failed)) || ($failed > 0))) {
2112                 # Check status of cluster
2113                 $failed = checkFailed($clname, $dbuser, $dbpass, $prefix, $logfile, $log_prefix);
2114                 if ($failed == 0) {
2115                     if ($g_debug) {
2116                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_cluster_good'));
2117                     }
2118                     if ($current_retry > 0) {
2119                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('cluster_fixed'));
2120                     }
2121                 }
2122                 $current_retry++;
2123                 if (($failed > 0) && ($current_retry <= $g_autofailover_retry)) {
2124                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('cluster_failed', $failed,$g_autofailover_retry_sleep,$current_retry,$g_autofailover_retry));
2125                     usleep($g_autofailover_retry_sleep * 1000);
2126                 }
2127             }
2128             if ($failed > 0) {
2129                 if ((!$g_autofailover_majority_only || checkSplit($prefix, $logfile, $log_prefix)) && (($g_autofailover_perspective_sleep <= 0) || checkPerspective($clname, $dbuser, $dbpass, $prefix, $logfile, $log_prefix))) {
2130                     $actions = findBackup($clname, $dbuser, $dbpass, $prefix, $logfile, $log_prefix);
2131                     if ($actions > 0) {
2132                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_proceed'));
2133                         foreach my $failed ( keys %g_backups ) {
2134                             printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_detail', $failed, $g_backups{$failed}));
2135                         }
2136                         $g_script = writeFailover($prefix, $dbconninfo, $clname, $dbuser, $dbpass, undef, undef, $g_subs_follow_origin, $g_use_comment_aliases, $logfile, $log_prefix);   
2137                         unless (runSlonik($g_script, $prefix, $logfile, $log_prefix)) {
2138                             printlogln($prefix,$logfile,$log_prefix,lookupMsg('err_execute_fail', 'slonik script', $g_script));
2139                         }
2140                         $cluster_loaded = false;
2141
2142                         #print "SCRIPT: $g_script\n";
2143                         #exit(0);
2144                     }
2145                     else {
2146                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_halt', $failed));
2147                     }
2148                 }
2149             }
2150             usleep($g_autofailover_poll_interval * 1000);
2151         }
2152         else {
2153             sleep(10);
2154         }
2155
2156     }
2157 }
2158
2159 sub checkSplit {
2160     my $prefix = shift;
2161     my $logfile = shift;
2162     my $log_prefix = shift;
2163
2164     my $majority = false; 
2165     my $failed = scalar(@g_unresponsive);
2166     my $survivers = (scalar(@g_cluster) - scalar(@g_unresponsive));
2167
2168     if ($survivers > $failed) {
2169         $majority = true; 
2170         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_split_check', $survivers, ($survivers+$failed)));
2171     }
2172     elsif (($survivers == $failed) && $g_autofailover_is_quorum) {
2173         $majority = true; 
2174         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_split_check', ($survivers . '+quorum'), ($survivers+$failed)));
2175     }
2176     else {
2177         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_split_check_fail', $survivers));
2178     }
2179
2180     return $majority;
2181 }
2182
2183 # Check each nodes perspective of the failure to try to ensure the issue isn't that this script just can't connect to the origin/provider
2184 # The idea here is just to wait for a short period of time and see if the lag time for the nodes has increased by the same amount.
2185 sub checkPerspective {
2186     my $clname = shift;
2187     my $dbuser = shift;
2188     my $dbpass = shift;
2189     my $prefix = shift;
2190     my $logfile = shift;
2191     my $log_prefix = shift;
2192
2193     my $dsn;
2194     my $dbh;
2195     my $sth;
2196     my $query;
2197     my $qw_clname;
2198     my $param_on;
2199     my $agreed = false;
2200     my @unresponsive_ids;
2201     my $lag_idx;
2202     my $lag_confirmed;
2203     my @lag_info1;
2204     my @lag_info2;
2205     my $bad = 0;
2206
2207     foreach (@g_unresponsive) {
2208         push(@unresponsive_ids, $_->[0]);
2209     }
2210     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check', join(", ", @unresponsive_ids), scalar(@g_unresponsive), scalar(@g_cluster)));
2211
2212     foreach (@g_cluster) {
2213         unless ($_->[0] ~~ @unresponsive_ids)  {
2214             $dsn = "DBI:Pg:$_->[2];";
2215             eval {
2216                 $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
2217                 $qw_clname = $dbh->quote_identifier("_" . $clname);
2218
2219                 $query = "SELECT a.st_origin, a.st_received, extract(epoch from a.st_lag_time)::integer
2220                         FROM _test_replication.sl_status a
2221                         INNER JOIN _test_replication.sl_node b on a.st_origin = b.no_id
2222                         INNER JOIN _test_replication.sl_node c on a.st_received = c.no_id
2223                         WHERE a.st_received IN (" . substr('?, ' x scalar(@unresponsive_ids), 0, -2) . ") ORDER BY a.st_origin, a.st_received;";
2224
2225                 $sth = $dbh->prepare($query);
2226
2227                 $param_on = 1; 
2228                 foreach (@unresponsive_ids) {
2229                     $sth->bind_param($param_on, $_);
2230                     $param_on++;
2231                 }
2232                 $sth->execute();
2233
2234                 while (my @node_lag = $sth->fetchrow) { 
2235                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_data', 'Check1', $_->[0], $node_lag[0], $node_lag[1], $node_lag[2]));
2236                     push(@lag_info1, \@node_lag);
2237                 }
2238
2239                 $sth->finish;
2240                 $dbh->disconnect();
2241             };
2242             if ($@) {
2243                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_fail', $_->[0], $@));
2244                 $bad++;
2245             } 
2246         }
2247     }
2248
2249     if ($bad == 0) {
2250         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_sleep', $g_autofailover_perspective_sleep));
2251         usleep($g_autofailover_perspective_sleep * 1000);
2252
2253         foreach (@g_cluster) {
2254             unless ($_->[0] ~~ @unresponsive_ids)  {
2255                 $dsn = "DBI:Pg:$_->[2];";
2256                 eval {
2257                     $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
2258                     $qw_clname = $dbh->quote_identifier("_" . $clname);
2259
2260                     $query = "SELECT a.st_origin, a.st_received, extract(epoch from a.st_lag_time)::integer
2261                             FROM _test_replication.sl_status a
2262                             INNER JOIN _test_replication.sl_node b on a.st_origin = b.no_id
2263                             INNER JOIN _test_replication.sl_node c on a.st_received = c.no_id
2264                             WHERE a.st_received IN (" . substr('?, ' x scalar(@unresponsive_ids), 0, -2) . ") ORDER BY a.st_origin, a.st_received;";
2265
2266                     $sth = $dbh->prepare($query);
2267
2268                     $param_on = 1;
2269                     foreach (@unresponsive_ids) {
2270                         $sth->bind_param($param_on, $_);
2271                         $param_on++;
2272                     }
2273                     $sth->execute();
2274
2275                     while (my @node_lag = $sth->fetchrow) {
2276                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_data', 'Check2', $_->[0], $node_lag[0], $node_lag[1], $node_lag[2]));
2277                         push(@lag_info2, \@node_lag);
2278                     }
2279
2280                     $sth->finish;
2281                     $dbh->disconnect();
2282                 };
2283                 if ($@) {
2284                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_fail', $_->[0], $@));
2285                     $bad++;
2286                 }
2287             }
2288         }
2289
2290         $lag_idx = 0;
2291         $lag_confirmed = 0;
2292         foreach (@lag_info1) {
2293             if ($g_debug) {
2294                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', ("Node $_->[0] lag between checks on node $_->[1] is " . ($lag_info2[$lag_idx]->[2]-$_->[2]) . " seconds")));
2295             }
2296
2297             if ((($lag_info2[$lag_idx]->[2]-$_->[2])*1000) >= $g_autofailover_perspective_sleep) {
2298                 $lag_confirmed++;
2299             }
2300             $lag_idx++;
2301         }  
2302     }
2303
2304     if ($bad > 0) {
2305         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_unknown'));
2306     }   
2307     elsif ($lag_idx == $lag_confirmed) {
2308         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_true'));
2309         $agreed = true;
2310     } 
2311     else {
2312         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_pspec_check_false'));
2313     }
2314
2315     return $agreed;
2316 }
2317
2318 sub checkFailed {
2319     my $clname = shift;
2320     my $dbuser = shift;
2321     my $dbpass = shift;
2322     my $prefix = shift;
2323     my $logfile = shift;
2324     my $log_prefix = shift;
2325
2326     my $dsn;
2327     my $dbh;
2328     my $sth;
2329     my $query;
2330     my $result_count = 0;
2331     my $prov_failed = 0;
2332     my $subonly_failed = 0;
2333
2334     undef @g_unresponsive;
2335
2336     foreach (@g_cluster) {
2337         if ($_->[6] eq "ACTIVE") {
2338             if ($g_debug) {
2339                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_autofailover_check',$_->[0], ($_->[4] // "unnamed"),(defined($_->[9]) ? "provider of sets $_->[9]" : "sole subscriber"),$_->[2]));
2340             }
2341
2342             if ($g_debug) {
2343                 if ((defined($_->[3])) || ($g_autofailover_provs && defined($_->[9]))) {
2344                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_autofailover_active_check', 'provider', $_->[0]));
2345                 }
2346                 else {
2347                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_autofailover_active_check', 'subscriber only', $_->[0]));
2348                 }
2349             }
2350
2351             $dsn = "DBI:Pg:$_->[2];";
2352             eval {
2353                 $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
2354                 $query = "SELECT count(*) FROM pg_namespace WHERE nspname = ?";
2355                 $sth = $dbh->prepare($query);
2356                 $sth->bind_param(1, "_" . $clname);
2357                 $sth->execute();
2358
2359                 $result_count = $result_count+$sth->rows;
2360     
2361                 $sth->finish;
2362                 $dbh->disconnect();
2363
2364                 if (exists($g_unresponsive_subonly{$_->[0]})) {
2365                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_recovery_subonly', $_->[0]));
2366                     delete $g_unresponsive_subonly{$_->[0]};
2367                 } 
2368             };
2369             if ($@) {
2370                 if ($g_debug) {
2371                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
2372                 }
2373                 push(@g_unresponsive, \@$_); 
2374                 if ((defined($_->[3])) || ($g_autofailover_provs && defined($_->[9]))) {
2375                     if (defined($_->[3])) {
2376                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_unresponsive', $_->[0]));
2377                     }
2378                     else {
2379                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_unresponsive_prov', $_->[0]));
2380                     }
2381                     unless ($g_failover_method ne 'new' && !defined($_->[3])) {
2382                         $prov_failed++;
2383                     }
2384                 }
2385                 else {
2386                     if (!exists($g_unresponsive_subonly{$_->[0]})) {
2387                         printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_unresponsive_subonly', $_->[0]));
2388                         $g_unresponsive_subonly{$_->[0]} = true;
2389                     } 
2390                     if ($g_fail_subonly) {
2391                         $subonly_failed++;
2392                     }
2393                 }
2394             }
2395         }
2396         else {
2397             if ($g_debug) {
2398                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_autofailover_check',$_->[0], ($_->[4] // "unnamed"), lc($_->[6] // "unknown") .  ' node', $_->[2]));
2399             }
2400         }
2401     }
2402     if ($prov_failed > 0) {
2403         return ($prov_failed+$subonly_failed);
2404     }
2405     else {
2406         return $prov_failed;
2407     }
2408 }
2409
2410 sub findBackup {
2411     my $clname = shift;
2412     my $dbuser = shift;
2413     my $dbpass = shift;
2414     my $prefix = shift;
2415     my $logfile = shift;
2416     my $log_prefix = shift;
2417
2418     my $dsn;
2419     my $dbh;
2420     my $sth;
2421     my $query;
2422     my $qw_clname;
2423     my $result_count = 0;
2424     my $lowest_lag_time;
2425     my $latest_last_event;
2426     my $best_node_id;    
2427     my $best_node_is_direct;    
2428     my $best_node_can_forward;    
2429     my @sets_from;
2430     my @sets_to;
2431     my @sets_to_prov;
2432     my %backup_for_set_chosen;
2433
2434     undef %g_backups;
2435     undef @g_failed;
2436
2437     foreach (@g_unresponsive) {
2438         if ($g_fail_subonly || (defined($_->[3])) || ($g_autofailover_provs && defined($_->[9]))) {
2439             printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_promote_find', ($_->[9] // "none"), $_->[0]));
2440
2441             undef $best_node_id;
2442             $lowest_lag_time = (1<<$Config{ivsize}*8-1)-1;
2443             $latest_last_event = 0;
2444             $best_node_is_direct = false;    
2445             $best_node_can_forward = false;    
2446
2447             if (defined($_->[9]) && (exists $backup_for_set_chosen{$_->[9]})) {
2448                 $best_node_id = $backup_for_set_chosen{$_->[9]};
2449                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_promote_found', $_->[9], $_->[0]));
2450             }
2451             else {
2452                 foreach my $subscriber (@g_cluster) {
2453                     if ($subscriber->[0] != $_->[0]) {
2454                         if ($g_debug) {
2455                             printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_check_sub',$subscriber->[0]));
2456                         }
2457    
2458                         # Here the strings containing the sets are converted to arrays
2459                         # Origin / Forwarded sets
2460                         undef @sets_to_prov; 
2461                         if (defined($subscriber->[10])) {
2462                             @sets_to_prov = split(',',$subscriber->[10]);
2463                         }
2464                         if (defined($subscriber->[3])) {
2465                             if (@sets_to_prov) {
2466                                 @sets_to_prov = (@sets_to_prov, split(',',$subscriber->[3]));
2467                             }
2468                             else {
2469                                 @sets_to_prov = split(',',$subscriber->[3]);
2470                             }
2471                         }
2472                         if (!defined($subscriber->[10]) && !defined($subscriber->[3])) {
2473                             @sets_to_prov = (0);
2474                         }
2475
2476                         # Origin / Subscribed sets.
2477                         undef @sets_to;
2478                         if (defined($subscriber->[7])) {
2479                             @sets_to = split(',',$subscriber->[7]);
2480                         }
2481                         if (defined($subscriber->[3])) {
2482                             if (@sets_to) {
2483                                 @sets_to = (@sets_to, split(',',$subscriber->[3]));
2484                             }
2485                             else {
2486                                @sets_to = split(',',$subscriber->[3]);
2487                             }
2488                         }
2489                         if (!defined($subscriber->[7]) && !defined($subscriber->[3])) {
2490                             @sets_to = (0);
2491                         }
2492
2493                         # Sets provided by the failed node.
2494                         undef @sets_from;
2495                         if (defined($_->[9])) {
2496                             @sets_from = split(',',$_->[9]);
2497                         }
2498                         else {
2499                             @sets_from = (0);
2500                             @sets_to = (0);
2501                         }
2502
2503                         $dsn = "DBI:Pg:$subscriber->[2]";
2504         
2505                         eval {
2506                             $dbh = DBI->connect($dsn, $dbuser, $dbpass, {RaiseError => 1});
2507                             $qw_clname = $dbh->quote_identifier("_" . $clname);
2508
2509                             #print "\tNODE " . $subscriber->[0] . ") SETS TO = " . join(',', @sets_to) . " SETS FROM =  " . join(',', @sets_from) . " SETS TO PROV = " . join(',', @sets_to_prov) . "\n";
2510
2511                             if (defined($subscriber->[3]) && checkProvidesAllSets(\@sets_from, \@sets_to)) {
2512                                 $query = "SELECT 0, ev_seqno, (ev_origin = ?)
2513                                     FROM $qw_clname.sl_event
2514                                     WHERE ev_origin = $qw_clname.getlocalnodeid(?)
2515                                     ORDER BY ev_seqno DESC LIMIT 1";
2516                             }
2517                             else {
2518                                 $query = "SELECT extract(epoch from (current_timestamp-a.con_timestamp)), a.con_seqno, (a.con_origin = ?) AS direct
2519                                     FROM $qw_clname.sl_confirm a
2520                                     INNER JOIN $qw_clname.sl_event b on b.ev_seqno = a.con_seqno AND a.con_origin = b.ev_origin
2521                                     INNER JOIN $qw_clname.sl_subscribe c ON c.sub_provider = a.con_origin AND c.sub_receiver = a.con_received
2522                                     WHERE c.sub_active AND a.con_received = $qw_clname.getlocalnodeid(?)
2523                                     ORDER BY a.con_seqno DESC LIMIT 1;";
2524                             }
2525
2526                             $sth = $dbh->prepare($query);
2527                             $sth->bind_param(1, $_->[0]);
2528                             $sth->bind_param(2, "_" . $clname);
2529                             $sth->execute();
2530
2531                             while (my @subinfo = $sth->fetchrow) {
2532                                 # If the failed provider node isn't an origin for any sets, we classify any direct subscribers to it as indeirect
2533                                 # because they are indirect to the origin.
2534                                 if ($subinfo[2] && defined($_->[9]) && !defined($_->[3])) {
2535                                     $subinfo[2] = false;
2536                                 }
2537
2538                                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_node_detail', 
2539                                                                                     $subscriber->[0], 
2540                                                                                     ($subinfo[2]?"directly":"indirectly"), 
2541                                                                                     (defined($_->[3])?"origin":(defined($_->[9])?"provider":"subscriber only")), 
2542                                                                                     $_->[0],
2543                                                                                     (defined($subscriber->[10])?$subscriber->[10]:(defined($subscriber->[3])?$subscriber->[3]:"<NONE>")),
2544                                                                                     $subinfo[0], $subinfo[1]));
2545
2546                                 # If select this node as the backup node if:
2547                                 #   1) The node is a subscriber to all sets on the failed node
2548                                 #   2) In order of preference:
2549                                 #      The node is one of the direct subscribers to the failed node on the most recent event and is a forwarding provider
2550                                 #      OR 
2551                                 #      The node is one of the direct subscribers to the failed node on the most recent event and is not a forwarding provider
2552                                 #      OR
2553                                 #      The node is an indirect subscriber to the failed node with the lowest lag time
2554                                 if (!checkProvidesAllSets(\@sets_from, \@sets_to)) {
2555                                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_promote_unsuitable', $subscriber->[0]));
2556                                 }
2557                                 elsif (($subinfo[2] && (!$best_node_is_direct || $subinfo[1] > $latest_last_event || (!$best_node_can_forward && checkProvidesAllSets(\@sets_from, \@sets_to_prov) && $subinfo[1] == $latest_last_event))) 
2558                                     || (!$best_node_is_direct && !$subinfo[2] && $subinfo[0] < $lowest_lag_time)) {
2559                                     printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_promote_best', $subscriber->[0], $subinfo[0], $subinfo[1]));
2560                                     $best_node_id = $subscriber->[0];
2561                                     $lowest_lag_time = $subinfo[0];
2562                                     $latest_last_event = $subinfo[1];
2563                                     $best_node_is_direct = $subinfo[2];
2564                                     $best_node_can_forward = checkProvidesAllSets(\@sets_from, \@sets_to_prov);    
2565                                 }
2566
2567                             }
2568                         };
2569                         if ($@) {
2570                             printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_check_sub_fail', $subscriber->[0]));
2571                             if ($g_debug) {
2572                                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('dbg_generic', $@));
2573                             }
2574                         }
2575                     }
2576                 }
2577             }
2578             if (defined($best_node_id)) { 
2579                 push(@g_failed, \@$_);
2580                 $g_backups{$_->[0]} = $best_node_id;
2581                 if (defined($_->[9]) && !(exists $g_backups{$_->[9]})) {
2582                     $backup_for_set_chosen{$_->[9]} = $best_node_id;
2583                 }
2584             }
2585             else {
2586                 printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_promote_fail')); 
2587             }
2588         }
2589         else {
2590             printlogln($prefix,$logfile,$log_prefix,lookupMsg('autofailover_promote_skip', $_->[0]));
2591         }
2592     }
2593     return keys(%g_backups);
2594 }