<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On 13 July 2015 at 19:19, Atin Mukherjee <span dir="ltr">&lt;<a href="mailto:amukherj@redhat.com" target="_blank">amukherj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><div class=""><div class="h5"><br>

<br>

On 07/13/2015 10:45 PM, Tiemen Ruiten wrote:<br>

&gt; On 13 July 2015 at 19:06, Atin Mukherjee &lt;<a href="mailto:amukherj@redhat.com">amukherj@redhat.com</a>&gt; wrote:<br>

&gt;<br>

&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; On 07/13/2015 10:29 PM, Tiemen Ruiten wrote:<br>

&gt;&gt;&gt; OK, I found what&#39;s wrong. From the brick&#39;s log:<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; [2015-07-12 02:32:01.542934] I [glusterfsd-mgmt.c:1512:mgmt_getspec_cbk]<br>

&gt;&gt;&gt; 0-glusterfs: No change in volfile, continuing<br>

&gt;&gt;&gt; [2015-07-13 14:21:06.722675] W [glusterfsd.c:1219:cleanup_and_exit] (--&gt;<br>

&gt;&gt;&gt; 0-: received signum (15), shutting down<br>

&gt;&gt;&gt; [2015-07-13 14:21:35.168750] I [MSGID: 100030] [glusterfsd.c:2294:main]<br>

&gt;&gt;&gt; 0-/usr/sbin/glusterfsd: Started running /usr/sbin/glusterfsd version<br>

&gt;&gt; 3.7.1<br>

&gt;&gt;&gt; (args: /usr/sbin/glusterfsd -s 10.100.3.10 --volfile-id<br>

&gt;&gt;&gt; vmimage.10.100.3.10.export-gluster01-brick -p<br>

&gt;&gt;&gt; /var/lib/glusterd/vols/vmimage/run/10.100.3.10-export-gluster01-brick.pid<br>

&gt;&gt;&gt; -S /var/run/gluster/2bfe3a2242d586d0850775f601f1c3ee.socket --brick-name<br>

&gt;&gt;&gt; /export/gluster01/brick -l<br>

&gt;&gt;&gt; /var/log/glusterfs/bricks/export-gluster01-brick.log --xlator-option<br>

&gt;&gt;&gt; *-posix.glusterd-uuid=26186ec6-a8c7-4834-bcaa-24e30289dba3 --brick-port<br>

&gt;&gt;&gt; 49153 --xlator-option vmimage-server.listen-port=49153)<br>

&gt;&gt;&gt; [2015-07-13 14:21:35.178558] E [socket.c:823:__socket_server_bind]<br>

&gt;&gt;&gt; 0-socket.glusterfsd: binding to  failed: Address already in use<br>

&gt;&gt;&gt; [2015-07-13 14:21:35.178624] E [socket.c:826:__socket_server_bind]<br>

&gt;&gt;&gt; 0-socket.glusterfsd: Port is already in use<br>

&gt;&gt;&gt; [2015-07-13 14:21:35.178649] W [rpcsvc.c:1602:rpcsvc_transport_create]<br>

&gt;&gt;&gt; 0-rpc-service: listening on transport failed<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; ps aux | grep gluster<br>

&gt;&gt;&gt; root      6417  0.0  0.2 753080 175016 ?       Ssl  May21  25:25<br>

&gt;&gt;&gt; /usr/sbin/glusterfs --volfile-server=10.100.3.10 --volfile-id=/wwwdata<br>

&gt;&gt;&gt; /mnt/gluster/web/wwwdata<br>

&gt;&gt;&gt; root      6742  0.0  0.0 622012 17624 ?        Ssl  May21  22:31<br>

&gt;&gt;&gt; /usr/sbin/glusterfs --volfile-server=10.100.3.10 --volfile-id=/conf<br>

&gt;&gt;&gt; /mnt/gluster/conf<br>

&gt;&gt;&gt; root     36575  0.2  0.0 589956 19228 ?        Ssl  16:21   0:19<br>

&gt;&gt;&gt; /usr/sbin/glusterd --pid-file=/run/glusterd.pid<br>

&gt;&gt;&gt; root     36720  0.0  0.0 565140 55836 ?        Ssl  16:21   0:02<br>

&gt;&gt;&gt; /usr/sbin/glusterfs -s localhost --volfile-id gluster/nfs -p<br>

&gt;&gt;&gt; /var/lib/glusterd/nfs/run/nfs.pid -l /var/log/glusterfs/nfs.log -S<br>

&gt;&gt;&gt; /var/run/gluster/8b9ce8bebfa8c1d2fabb62654bdc550e.socket<br>

&gt;&gt;&gt; root     36730  0.0  0.0 451016 22936 ?        Ssl  16:21   0:01<br>

&gt;&gt;&gt; /usr/sbin/glusterfs -s localhost --volfile-id gluster/glustershd -p<br>

&gt;&gt;&gt; /var/lib/glusterd/glustershd/run/glustershd.pid -l<br>

&gt;&gt;&gt; /var/log/glusterfs/glustershd.log -S<br>

&gt;&gt;&gt; /var/run/gluster/c0d7454986c96eef463d028dc8bce9fe.socket --xlator-option<br>

&gt;&gt;&gt; *replicate*.node-uuid=26186ec6-a8c7-4834-bcaa-24e30289dba3<br>

&gt;&gt;&gt; root     37398  0.0  0.0 103248   916 pts/2    S+   18:49   0:00 grep<br>

&gt;&gt;&gt; gluster<br>

&gt;&gt;&gt; root     40058  0.0  0.0 755216 60212 ?        Ssl  May21  22:06<br>

&gt;&gt;&gt; /usr/sbin/glusterfs --volfile-server=10.100.3.10 --volfile-id=/fl-webroot<br>

&gt;&gt;&gt; /mnt/gluster/web/flash/webroot<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; So several leftover processes. What will happen if I do a<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; /etc/init.d/glusterd stop<br>

&gt;&gt;&gt; /etc/init.d/glusterfsd stop<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; kill all remaining gluster processes and restart gluster on this node?<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; Will the volume stay online? What about split-brain? I suppose it would<br>

&gt;&gt; be<br>

&gt;&gt;&gt; best to disconnect all clients first...?<br>

&gt;&gt; Can you double check if any brick process is already running, if so kill<br>

&gt;&gt; it and try &#39;gluster volume start &lt;volname&gt; force&#39;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; On 13 July 2015 at 18:25, Tiemen Ruiten &lt;<a href="mailto:t.ruiten@rdmedia.com">t.ruiten@rdmedia.com</a>&gt; wrote:<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; Hello,<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; We have a two-node gluster cluster, running version 3.7.1, that hosts an<br>

&gt;&gt;&gt;&gt; oVirt storage domain. This afternoon I tried creating a template in<br>

&gt;&gt; oVirt,<br>

&gt;&gt;&gt;&gt; but within a minute VM&#39;s stopped responding and Gluster started<br>

&gt;&gt; generating<br>

&gt;&gt;&gt;&gt; errors like the following:<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; [2015-07-13 14:09:51.772629] W [rpcsvc.c:270:rpcsvc_program_actor]<br>

&gt;&gt;&gt;&gt; 0-rpc-service: RPC program not available (req 1298437 330) for<br>

&gt;&gt;&gt;&gt; <a href="http://10.100.3.40:1021" rel="noreferrer" target="_blank">10.100.3.40:1021</a><br>

&gt;&gt;&gt;&gt; [2015-07-13 14:09:51.772675] E<br>

&gt;&gt; [rpcsvc.c:565:rpcsvc_check_and_reply_error]<br>

&gt;&gt;&gt;&gt; 0-rpcsvc: rpc actor failed to complete successfully<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; I managed to get things in working order again by restarting glusterd<br>

&gt;&gt; and<br>

&gt;&gt;&gt;&gt; glusterfsd, but now one brick is down:<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; $sudo gluster volume status vmimage<br>

&gt;&gt;&gt;&gt; Status of volume: vmimage<br>

&gt;&gt;&gt;&gt; Gluster process                             TCP Port  RDMA Port  Online<br>

&gt;&gt;&gt;&gt;  Pid<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt; ------------------------------------------------------------------------------<br>

&gt;&gt;&gt;&gt; Brick 10.100.3.10:/export/gluster01/brick   N/A       N/A        N<br>

&gt;&gt;&gt;&gt; 36736<br>

&gt;&gt;&gt;&gt; Brick 10.100.3.11:/export/gluster01/brick   49153     0          Y<br>

&gt;&gt;&gt;&gt; 11897<br>

&gt;&gt;&gt;&gt; NFS Server on localhost                     2049      0          Y<br>

&gt;&gt;&gt;&gt; 36720<br>

&gt;&gt;&gt;&gt; Self-heal Daemon on localhost               N/A       N/A        Y<br>

&gt;&gt;&gt;&gt; 36730<br>

&gt;&gt;&gt;&gt; NFS Server on 10.100.3.11                   2049      0          Y<br>

&gt;&gt;&gt;&gt; 11919<br>

&gt;&gt;&gt;&gt; Self-heal Daemon on 10.100.3.11             N/A       N/A        Y<br>

&gt;&gt;&gt;&gt; 11924<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; Task Status of Volume vmimage<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt; ------------------------------------------------------------------------------<br>

&gt;&gt;&gt;&gt; There are no active volume tasks<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; $ sudo gluster peer status<br>

&gt;&gt;&gt;&gt; Number of Peers: 1<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; Hostname: 10.100.3.11<br>

&gt;&gt;&gt;&gt; Uuid: f9872fea-47f5-41f6-8094-c9fabd3c1339<br>

&gt;&gt;&gt;&gt; State: Peer in Cluster (Connected)<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; Additionally in the etc-glusterfs-glusterd.vol.log I see these messages<br>

&gt;&gt;&gt;&gt; repeating every 3 seconds:<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; [2015-07-13 16:15:21.737044] W [socket.c:642:__socket_rwv] 0-management:<br>

&gt;&gt;&gt;&gt; readv on /var/run/gluster/2bfe3a2242d586d0850775f601f1c3ee.socket failed<br>

&gt;&gt;&gt;&gt; (Invalid argument)<br>

&gt;&gt;&gt;&gt; The message &quot;I [MSGID: 106005]<br>

&gt;&gt;&gt;&gt; [glusterd-handler.c:4667:__glusterd_brick_rpc_notify] 0-management:<br>

&gt;&gt; Brick<br>

&gt;&gt;&gt;&gt; 10.100.3.10:/export/gluster01/brick has disconnected from glusterd.&quot;<br>

&gt;&gt;&gt;&gt; repeated 39 times between [2015-07-13 16:13:24.717611] and [2015-07-13<br>

&gt;&gt;&gt;&gt; 16:15:21.737862]<br>

&gt;&gt;&gt;&gt; [2015-07-13 16:15:24.737694] W [socket.c:642:__socket_rwv] 0-management:<br>

&gt;&gt;&gt;&gt; readv on /var/run/gluster/2bfe3a2242d586d0850775f601f1c3ee.socket failed<br>

&gt;&gt;&gt;&gt; (Invalid argument)<br>

&gt;&gt;&gt;&gt; [2015-07-13 16:15:24.738498] I [MSGID: 106005]<br>

&gt;&gt;&gt;&gt; [glusterd-handler.c:4667:__glusterd_brick_rpc_notify] 0-management:<br>

&gt;&gt; Brick<br>

&gt;&gt;&gt;&gt; 10.100.3.10:/export/gluster01/brick has disconnected from glusterd.<br>

&gt;&gt;&gt;&gt; [2015-07-13 16:15:27.738194] W [socket.c:642:__socket_rwv] 0-management:<br>

&gt;&gt;&gt;&gt; readv on /var/run/gluster/2bfe3a2242d586d0850775f601f1c3ee.socket failed<br>

&gt;&gt;&gt;&gt; (Invalid argument)<br>

&gt;&gt;&gt;&gt; [2015-07-13 16:15:30.738991] W [socket.c:642:__socket_rwv] 0-management:<br>

&gt;&gt;&gt;&gt; readv on /var/run/gluster/2bfe3a2242d586d0850775f601f1c3ee.socket failed<br>

&gt;&gt;&gt;&gt; (Invalid argument)<br>

&gt;&gt;&gt;&gt; [2015-07-13 16:15:33.739735] W [socket.c:642:__socket_rwv] 0-management:<br>

&gt;&gt;&gt;&gt; readv on /var/run/gluster/2bfe3a2242d586d0850775f601f1c3ee.socket failed<br>

&gt;&gt;&gt;&gt; (Invalid argument)<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; Can I get this brick back up without bringing the volume/cluster down?<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;&gt; --<br>

&gt;&gt;&gt;&gt; Tiemen Ruiten<br>

&gt;&gt;&gt;&gt; Systems Engineer<br>

&gt;&gt;&gt;&gt; R&amp;D Media<br>

&gt;&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt;<br>

&gt;&gt;&gt; _______________________________________________<br>

&gt;&gt;&gt; Gluster-users mailing list<br>

&gt;&gt;&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>

&gt;&gt;&gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" rel="noreferrer" target="_blank">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>

&gt;&gt;&gt;<br>

&gt;&gt;<br>

&gt;&gt; --<br>

&gt;&gt; ~Atin<br>

&gt;&gt;<br>

&gt;<br>

&gt;<br>

&gt; Hi Atin,<br>

&gt;<br>

&gt; I see brick processes for volumes wwwdata, conf and fl-webroot, judging<br>

&gt; from the ps aux | grep gluster output. These volumes are not started. No<br>

&gt; brick process for vmimage. So you&#39;re saying, kill those brick processes,<br>

&gt; then gluster volume start vmimage force?<br>

</div></div>No, I meant if any left over brick process were there for vmimage. If<br>

its there kill them and start the volume with force or you could<br>

probably try to stop the volume and then start it.<br>

<br>

~Atin<br>

<div class=""><div class="h5">&gt;<br>

&gt; Thank you for  your response.<br>

&gt;<br>

<br>

--<br>

</div></div><span class=""><font color="#888888">~Atin<br>

</font></span></blockquote></div><br>OK, there&#39;s no brick process for vmimage. Is it possible that any of the leftover brick processes for the other volumes is blocking the port?</div><div class="gmail_extra"><br></div><div class="gmail_extra">What is the best approach in my case? Disconnect clients, stop volume and restart?</div><div class="gmail_extra"><br>-- <br><div class="gmail_signature"><div dir="ltr">Tiemen Ruiten<br>Systems Engineer<br>R&amp;D Media<br></div></div>

</div></div>