<p dir="ltr"></p>
<p dir="ltr">-Atin<br>
Sent from one plus one<br>
On 08-Apr-2016 10:40 pm, &quot;Ernie Dunbar&quot; &lt;<a href="mailto:maillist@lightspeed.ca">maillist@lightspeed.ca</a>&gt; wrote:<br>
&gt;<br>
&gt; On 2016-04-07 09:16, Atin Mukherjee wrote:<br>
&gt;&gt;<br>
&gt;&gt; -Atin<br>
&gt;&gt; Sent from one plus one<br>
&gt;&gt; On 07-Apr-2016 9:32 pm, &quot;Ernie Dunbar&quot; &lt;<a href="mailto:maillist@lightspeed.ca">maillist@lightspeed.ca</a>&gt; wrote:<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; On 2016-04-06 21:20, Atin Mukherjee wrote:<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; On 04/07/2016 04:04 AM, Ernie Dunbar wrote:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; On 2016-04-06 11:42, Ernie Dunbar wrote:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; I&#39;ve already successfully created a Gluster cluster, but when I<br>
&gt;&gt;<br>
&gt;&gt; try to<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; add a new node, gluster on the new node claims it can&#39;t find the<br>
&gt;&gt;&gt;&gt;&gt;&gt; hostname of the first node in the cluster.<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; I&#39;ve added the hostname <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1] to /etc/hosts like<br>
&gt;&gt;<br>
&gt;&gt; this:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; root@nfs3:/home/ernied# cat /etc/hosts<br>
&gt;&gt;&gt;&gt;&gt;&gt; 127.0.0.1    localhost<br>
&gt;&gt;&gt;&gt;&gt;&gt; 192.168.1.31    <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1]      nfs1<br>
&gt;&gt;&gt;&gt;&gt;&gt; 192.168.1.32    <a href="http://nfs2.lightspeed.ca">nfs2.lightspeed.ca</a> [2]      nfs2<br>
&gt;&gt;&gt;&gt;&gt;&gt; 127.0.1.1    <a href="http://nfs3.lightspeed.ca">nfs3.lightspeed.ca</a> [3]    nfs3<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; # The following lines are desirable for IPv6 capable hosts<br>
&gt;&gt;&gt;&gt;&gt;&gt; ::1     localhost ip6-localhost ip6-loopback<br>
&gt;&gt;&gt;&gt;&gt;&gt; ff02::1 ip6-allnodes<br>
&gt;&gt;&gt;&gt;&gt;&gt; ff02::2 ip6-allrouters<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; I can ping the hostname:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; root@nfs3:/home/ernied# ping -c 3 nfs1<br>
&gt;&gt;&gt;&gt;&gt;&gt; PING <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1] (192.168.1.31) 56(84) bytes of data.<br>
&gt;&gt;&gt;&gt;&gt;&gt; 64 bytes from <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1] (192.168.1.31): icmp_seq=1<br>
&gt;&gt;<br>
&gt;&gt; ttl=64<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; time=0.148 ms<br>
&gt;&gt;&gt;&gt;&gt;&gt; 64 bytes from <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1] (192.168.1.31): icmp_seq=2<br>
&gt;&gt;<br>
&gt;&gt; ttl=64<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; time=0.126 ms<br>
&gt;&gt;&gt;&gt;&gt;&gt; 64 bytes from <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1] (192.168.1.31): icmp_seq=3<br>
&gt;&gt;<br>
&gt;&gt; ttl=64<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; time=0.133 ms<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; --- <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1] ping statistics ---<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; 3 packets transmitted, 3 received, 0% packet loss, time 1998ms<br>
&gt;&gt;&gt;&gt;&gt;&gt; rtt min/avg/max/mdev = 0.126/0.135/0.148/0.016 ms<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; I can get gluster to probe the hostname:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; root@nfs3:/home/ernied# gluster peer probe nfs1<br>
&gt;&gt;&gt;&gt;&gt;&gt; peer probe: success. Host nfs1 port 24007 already in peer list<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; But if I try to create the brick on the new node, it says that<br>
&gt;&gt;<br>
&gt;&gt; the<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; host can&#39;t be found? Um...<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; root@nfs3:/home/ernied# gluster volume create gv2 replica 3<br>
&gt;&gt;&gt;&gt;&gt;&gt; nfs1.lightspeed.ca:/brick1/gv2/ nfs2.lightspeed.ca:/brick1/gv2/<br>
&gt;&gt;&gt;&gt;&gt;&gt; nfs3.lightspeed.ca:/brick1/gv2<br>
&gt;&gt;&gt;&gt;&gt;&gt; volume create: gv2: failed: Failed to find host<br>
&gt;&gt;<br>
&gt;&gt; <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1]<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; Our logs from /var/log/glusterfs/etc-glusterfs-glusterd.vol.log:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; [2016-04-06 18:19:18.107459] E [MSGID: 106452]<br>
&gt;&gt;&gt;&gt;&gt;&gt; [glusterd-utils.c:5825:glusterd_new_brick_validate] 0-management:<br>
&gt;&gt;&gt;&gt;&gt;&gt; Failed to find host <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1]<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; [2016-04-06 18:19:18.107496] E [MSGID: 106536]<br>
&gt;&gt;&gt;&gt;&gt;&gt; [glusterd-volume-ops.c:1364:glusterd_op_stage_create_volume]<br>
&gt;&gt;&gt;&gt;&gt;&gt; 0-management: Failed to find host <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1]<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; [2016-04-06 18:19:18.107516] E [MSGID: 106301]<br>
&gt;&gt;&gt;&gt;&gt;&gt; [glusterd-syncop.c:1281:gd_stage_op_phase] 0-management: Staging<br>
&gt;&gt;<br>
&gt;&gt; of<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; operation &#39;Volume Create&#39; failed on localhost : Failed to find<br>
&gt;&gt;<br>
&gt;&gt; host<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://nfs1.lightspeed.ca">nfs1.lightspeed.ca</a> [1]<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; [2016-04-06 18:19:18.231864] E [MSGID: 106170]<br>
&gt;&gt;&gt;&gt;&gt;&gt; [glusterd-handshake.c:1051:gd_validate_mgmt_hndsk_req]<br>
&gt;&gt;<br>
&gt;&gt; 0-management:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; Request from peer <a href="http://192.168.1.31:65530">192.168.1.31:65530</a> [4] has an entry in<br>
&gt;&gt;<br>
&gt;&gt; peerinfo, but<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; uuid does not match<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; We have introduced a new check to reject a peer if the request is<br>
&gt;&gt;<br>
&gt;&gt; coming<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; from a node where the hostname matches but UUID is different. This<br>
&gt;&gt;<br>
&gt;&gt; can<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; happen if a node goes through a re-installation and its<br>
&gt;&gt;&gt;&gt; /var/lib/glusterd/* content is wiped off. Look at [1] for more<br>
&gt;&gt;<br>
&gt;&gt; details.<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; [1] <a href="http://review.gluster.org/13519">http://review.gluster.org/13519</a><br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Do confirm if that&#39;s the case.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; I couldn&#39;t say if that&#39;s *exactly* the case, but it&#39;s pretty close.<br>
&gt;&gt;<br>
&gt;&gt; I don&#39;t recall ever removing /var/lib/glusterd/* or any of its<br>
&gt;&gt; contents, but the operating system isn&#39;t exactly the way it was when I<br>
&gt;&gt; first tried to add this node to the cluster.<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt; What should I do to *fix* the problem though, so I can add this node<br>
&gt;&gt;<br>
&gt;&gt; to the cluster? This bug report doesn&#39;t appear to provide a solution.<br>
&gt;&gt; I&#39;ve tried removing the node from the cluster, and that failed too.<br>
&gt;&gt; Things seem to be in a very screwey state right now.<br>
&gt;&gt;<br>
&gt;&gt; I should have given the work around earlier. Find the peer file for<br>
&gt;&gt; the faulty node in /var/lib/glusterd/peers/ and delete the same from<br>
&gt;&gt; all the nodes but the faulty node. Restart glusterd instance on all<br>
&gt;&gt; those nodes. Ensure /var/lib/glusterd/ content is empty, restart<br>
&gt;&gt; glusterd and then peer probe this node from any of the node in the<br>
&gt;&gt; existing cluster. You should also bump up the op-version once cluster<br>
&gt;&gt; is stable.<br>
&gt;&gt;<br>
&gt;<br>
&gt; This mostly solved the problem, but it seems you were missing one step:<br>
&gt;<br>
&gt; # gluster peer detach &lt;wonky node&gt;</p>
<p dir="ltr">Not really, if you would have cleared the peer file from the backend from all of the nodes and post restart of glusterd instances the cluster shouldn&#39;t have detected this faulty node.<br>
&gt;<br>
&gt; After probing the new node again, I was able to add it to the cluster. Without doing this step,<br>
&gt; attempting to add the new node to the cluster just resulted in this error message:<br>
&gt;<br>
&gt; volume create: gv0: failed: Host 192.168.1.33 is not in &#39;Peer in Cluster&#39; state<br>
&gt;<br>
&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; [2016-04-06 18:19:18.231919] E [MSGID: 106170]<br>
&gt;&gt;&gt;&gt;&gt;&gt; [glusterd-handshake.c:1060:gd_validate_mgmt_hndsk_req]<br>
&gt;&gt;<br>
&gt;&gt; 0-management:<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; Rejecting management handshake request from unknown peer<br>
&gt;&gt;&gt;&gt;&gt;&gt; <a href="http://192.168.1.31:65530">192.168.1.31:65530</a> [4]<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; That error about the entry in peerinfo doesn&#39;t match anything in<br>
&gt;&gt;&gt;&gt;&gt;&gt; Google besides the source code for Gluster. My guess is that my<br>
&gt;&gt;&gt;&gt;&gt;&gt; earlier unsuccessful attempts to add this node before v3.7.10<br>
&gt;&gt;<br>
&gt;&gt; have<br>
&gt;&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;&gt; created a conflict that needs to be cleared.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; More interesting, is what happens when I try to add the third<br>
&gt;&gt;<br>
&gt;&gt; server to<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; the brick from the first gluster server:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; root@nfs1:/home/ernied# gluster volume add-brick gv2 replica 3<br>
&gt;&gt;&gt;&gt;&gt; nfs3:/brick1/gv2<br>
&gt;&gt;&gt;&gt;&gt; volume add-brick: failed: One or more nodes do not support the<br>
&gt;&gt;<br>
&gt;&gt; required<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; op-version. Cluster op-version must atleast be 30600.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; Yet, when I view the operating version in<br>
&gt;&gt;<br>
&gt;&gt; /var/lib/glusterd/<a href="http://glusterd.info">glusterd.info</a> [5]:<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; root@nfs1:/home/ernied# cat /var/lib/glusterd/<a href="http://glusterd.info">glusterd.info</a> [5]<br>
&gt;&gt;&gt;&gt;&gt; UUID=1207917a-23bc-4bae-8238-cd691b7082c7<br>
&gt;&gt;&gt;&gt;&gt; operating-version=30501<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; root@nfs2:/home/ernied# cat /var/lib/glusterd/<a href="http://glusterd.info">glusterd.info</a> [5]<br>
&gt;&gt;&gt;&gt;&gt; UUID=e394fcec-41da-482a-9b30-089f717c5c06<br>
&gt;&gt;&gt;&gt;&gt; operating-version=30501<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; root@nfs3:/home/ernied# cat /var/lib/glusterd/<a href="http://glusterd.info">glusterd.info</a> [5]<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; UUID=ae191e96-9cd6-4e2b-acae-18f2cc45e6ed<br>
&gt;&gt;&gt;&gt;&gt; operating-version=30501<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; I see that the operating version is the same on all nodes!<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; Here cluster op-version is pretty old. You need to make sure that<br>
&gt;&gt;<br>
&gt;&gt; you<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; bump up the op-version by &#39;gluster volume set all<br>
&gt;&gt;<br>
&gt;&gt; cluster.op-version<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; 30710&#39;. add-brick code path has a check that your cluster<br>
&gt;&gt;<br>
&gt;&gt; op-version has<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; to be at least 30600 if you are with gluster version &gt;=3.6 which is<br>
&gt;&gt;<br>
&gt;&gt; the<br>
&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt; case here.<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt;&gt; Gluster-users mailing list<br>
&gt;&gt;&gt;&gt;&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt;&gt;&gt;&gt;&gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>
&gt;&gt;&gt;&gt;&gt;<br>
&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt; Gluster-users mailing list<br>
&gt;&gt;&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt;&gt;&gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Links:<br>
&gt;&gt; ------<br>
&gt;&gt; [1] <a href="http://nfs1.lightspeed.ca">http://nfs1.lightspeed.ca</a><br>
&gt;&gt; [2] <a href="http://nfs2.lightspeed.ca">http://nfs2.lightspeed.ca</a><br>
&gt;&gt; [3] <a href="http://nfs3.lightspeed.ca">http://nfs3.lightspeed.ca</a><br>
&gt;&gt; [4] <a href="http://192.168.1.31:65530">http://192.168.1.31:65530</a><br>
&gt;&gt; [5] <a href="http://glusterd.info">http://glusterd.info</a><br>
</p>