<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Aug 31, 2016 at 8:13 PM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Just as a test I did not shut down the one VM on the cluster as finding a window before weekend where I can shut down all VM&#39;s and fit in a full heal is unlikely so wanted to see what occurs.<div><br></div><div><br></div><div>kill -15 brick pid</div><div>rm -Rf /gluster2/brick1/1</div><div>mkdir /gluster2/brick1/1</div><div>mkdir /rhev/data-center/mnt/glusterS<wbr>D/<a href="http://192.168.71.10" target="_blank">192.168.71.10</a>\:_glustershard<wbr>/fake3<br></div><span class=""><div>setfattr -n &quot;user.some-name&quot; -v &quot;some-value&quot; /rhev/data-center/mnt/glusterS<wbr>D/<a href="http://192.168.71.10" target="_blank">192.168.71.10</a>\:_glustershard<br></div><div><br></div></span><div>getfattr -d -m . -e hex /gluster2/brick2/1<br></div><div><div># file: gluster2/brick2/1</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.afr.dirty=0x0000000000<wbr>00000000000001</div><div>trusted.afr.glustershard-clien<wbr>t-0=0x000000000000000200000000</div></div></div></blockquote><div><br></div><div>This is unusual. The last digit ought to have been 1 on account of &quot;fake3&quot; being created while hte first brick is offline.<br><br></div><div>This discussion is becoming unnecessary lengthy. Mind if we discuss this and sort it out on IRC today, at least the communication will be continuous and in real-time. I&#39;m kdhananjay on #gluster (Freenode). Ping me when you&#39;re online.<br><br></div><div>-Krutika<br></div><div><br> <br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>trusted.afr.glustershard-clien<wbr>t-2=0x000000000000000000000000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><div><br></div><div>getfattr -d -m . -e hex /gluster2/brick3/1<br></div><div><div># file: gluster2/brick3/1</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.afr.dirty=0x0000000000<wbr>00000000000001</div><div>trusted.afr.glustershard-clien<wbr>t-0=0x000000000000000200000000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><div><br></div><div>setfattr -n trusted.afr.glustershard-clien<wbr>t-0 -v 0x000000010000000200000000 /gluster2/brick2/1<br></div><div>setfattr -n trusted.afr.glustershard-clien<wbr>t-0 -v 0x000000010000000200000000 /gluster2/brick3/1<br></div><div><br></div><div><div>getfattr -d -m . -e hex /gluster2/brick3/1/</div><div>getfattr: Removing leading &#39;/&#39; from absolute path names</div><div># file: gluster2/brick3/1/</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.afr.dirty=0x0000000000<wbr>00000000000000</div><div>trusted.afr.glustershard-clien<wbr>t-0=0x000000010000000200000000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><div><br></div><div><div>getfattr -d -m . -e hex /gluster2/brick2/1/</div><div>getfattr: Removing leading &#39;/&#39; from absolute path names</div><div># file: gluster2/brick2/1/</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.afr.dirty=0x0000000000<wbr>00000000000000</div><div>trusted.afr.glustershard-clien<wbr>t-0=0x000000010000000200000000</div><div>trusted.afr.glustershard-clien<wbr>t-2=0x000000000000000000000000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><span class=""><div><br></div><div>gluster v start glustershard force<br></div><div><br></div></span><div>gluster heal counts climbed up and down a little as it healed everything in visible gluster mount and .glusterfs for visible mount files then stalled with around 15 shards and the fake3 directory still in list</div><div><br></div><div><div>getfattr -d -m . -e hex /gluster2/brick2/1/</div><div>getfattr: Removing leading &#39;/&#39; from absolute path names</div><div># file: gluster2/brick2/1/</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.afr.dirty=0x0000000000<wbr>00000000000000</div><div>trusted.afr.glustershard-clien<wbr>t-0=0x000000010000000000000000</div><div>trusted.afr.glustershard-clien<wbr>t-2=0x000000000000000000000000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><div><br></div><div><div>getfattr -d -m . -e hex /gluster2/brick3/1/</div><div>getfattr: Removing leading &#39;/&#39; from absolute path names</div><div># file: gluster2/brick3/1/</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.afr.dirty=0x0000000000<wbr>00000000000000</div><div>trusted.afr.glustershard-clien<wbr>t-0=0x000000010000000000000000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><div><br></div><div><div>getfattr -d -m . -e hex /gluster2/brick1/1/</div><div>getfattr: Removing leading &#39;/&#39; from absolute path names</div><div># file: gluster2/brick1/1/</div><div>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a756e6c6162656c65645f743a733<wbr>000</div><div>trusted.gfid=0x000000000000000<wbr>00000000000000001</div><div>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff</div><div>trusted.glusterfs.volume-id=0x<wbr>5889332e50ba441e8fa5cce3ae6f3a<wbr>15</div><div>user.some-name=0x736f6d652d766<wbr>16c7565</div></div><div><br></div><div>heal count stayed same for awhile then ran</div><span class=""><div><br></div><div>gluster v heal glustershard full<br></div><div><br></div></span><div>heals jump up to 700 as shards actually get read in as needing heals.  glustershd shows 3 sweeps started one per brick</div><div><br></div><div>It heals shards things look ok heal &lt;&gt; info shows 0 files but statistics heal-info shows 1 left for brick 2 and 3. perhaps cause I didnt stop vm running?</div><div><br></div><div><div># file: gluster2/brick1/1/</div><div>security.selinux=<wbr>0x756e636f6e66696e65645f753a6f<wbr>626a6563745f723a756e6c6162656c<wbr>65645f743a733000</div><div>trusted.gfid=<wbr>0x0000000000000000000000000000<wbr>0001</div><div>trusted.glusterfs.dht=<wbr>0x000000010000000000000000ffff<wbr>ffff</div><div>trusted.glusterfs.volume-id=<wbr>0x5889332e50ba441e8fa5cce3ae6f<wbr>3a15</div><div>user.some-name=<wbr>0x736f6d652d76616c7565</div></div><div><br></div><div><div># file: gluster2/brick2/1/</div><div>security.selinux=<wbr>0x756e636f6e66696e65645f753a6f<wbr>626a6563745f723a756e6c6162656c<wbr>65645f743a733000</div><div>trusted.afr.dirty=<wbr>0x000000000000000000000000</div><div>trusted.afr.glustershard-<wbr>client-0=<wbr>0x000000010000000000000000</div><div>trusted.afr.glustershard-<wbr>client-2=<wbr>0x000000000000000000000000</div><div>trusted.gfid=<wbr>0x0000000000000000000000000000<wbr>0001</div><div>trusted.glusterfs.dht=<wbr>0x000000010000000000000000ffff<wbr>ffff</div><div>trusted.glusterfs.volume-id=<wbr>0x5889332e50ba441e8fa5cce3ae6f<wbr>3a15</div><div>user.some-name=<wbr>0x736f6d652d76616c7565</div></div><div><br></div><div><div># file: gluster2/brick3/1/</div><div>security.selinux=<wbr>0x756e636f6e66696e65645f753a6f<wbr>626a6563745f723a756e6c6162656c<wbr>65645f743a733000</div><div>trusted.afr.dirty=<wbr>0x000000000000000000000000</div><div>trusted.afr.glustershard-<wbr>client-0=<wbr>0x000000010000000000000000</div><div>trusted.gfid=<wbr>0x0000000000000000000000000000<wbr>0001</div><div>trusted.glusterfs.dht=<wbr>0x000000010000000000000000ffff<wbr>ffff</div><div>trusted.glusterfs.volume-id=<wbr>0x5889332e50ba441e8fa5cce3ae6f<wbr>3a15</div><div>user.some-name=<wbr>0x736f6d652d76616c7565</div></div><div><br></div><div>meta-data split-brain?  heal &lt;&gt; info split-brain shows no files or entries.  If I had thought ahead I would have checked the values returned by getfattr before, although I do know heal-count was returning 0 at the time</div><div><br></div><div><br></div><div>Assuming I need to shut down vm&#39;s and put volume in maintenance from ovirt to prevent any io.  Does it need to occur for whole heal or can I re-activate at some point to bring VM&#39;s back up?</div><div><br></div><div><br></div><div><br></div></div><div class="gmail_extra"><span class=""><br clear="all"><div><div data-smartmail="gmail_signature"><div dir="ltr"><span><font color="#888888"><span style="color:rgb(0,0,0)"><b><i>David Gossage</i></b></span><font><i><span style="color:rgb(51,51,51)"><b><br>

</b></span></i></font></font></span><div><span><font color="#888888"><font><i><span style="color:rgb(51,51,51)"></span></i><font size="1"><b style="color:rgb(153,0,0)">Carousel Checks Inc.<span style="color:rgb(204,204,204)"> | System Administrator</span></b></font></font><font style="color:rgb(153,153,153)"><font size="1"><br>



</font></font><font><font size="1"><span style="color:rgb(51,51,51)"><b style="color:rgb(153,153,153)">Office</b><span style="color:rgb(153,153,153)"> <a value="+17086132426">708.613.2284<font color="#888888"><font size="1"><br></font></font></a></span></span></font></font></font></span></div></div></div></div>
<br></span><div><div class="h5"><div class="gmail_quote">On Wed, Aug 31, 2016 at 3:50 AM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>No, sorry, it&#39;s working fine. I may have missed some step because of which i saw that problem. /.shard is also healing fine now.<br><br></div><div>Let me know if it works for you.<br><br></div>-Krutika<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Aug 31, 2016 at 12:49 PM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>OK I just hit the other issue too, where .shard doesn&#39;t get healed. :)<br><br>Investigating as to why that is the case. Give me some time.<span><font color="#888888"><br><br></font></span></div><span><font color="#888888">-Krutika<br></font></span></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Aug 31, 2016 at 12:39 PM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div><div><div><div><div><div>Just figured the steps Anuradha has provided won&#39;t work if granular entry heal is on.<br></div>So when you bring down a brick and create fake2 under / of the volume, granular entry heal feature causes<br></div>sh to remember only the fact that &#39;fake2&#39; needs to be recreated on the offline brick (because changelogs are granular).<br><br></div>In this case, we would be required to indicate to self-heal-daemon that the entire directory tree from &#39;/&#39; needs to be repaired on the brick that contains no data.<br><br></div>To fix this, I did the following (for users who use granular entry self-healing):<br><br></div>1. Kill the last brick process in the replica (/bricks/3)<br><br></div>2.  [root@server-3 ~]# rm -rf /bricks/3<br><br></div>3.  [root@server-3 ~]# mkdir /bricks/3<br><br></div><div>4. Create a new dir on the mount point:<br>    [root@client-1 ~]# mkdir /mnt/fake<br><br></div><div>5. Set some fake xattr on the root of the volume, and not the &#39;fake&#39; directory itself.<br></div><div>    [root@client-1 ~]# setfattr -n &quot;user.some-name&quot; -v &quot;some-value&quot; /mnt<br><br></div><div>6. Make sure there&#39;s no io happening on your volume.<br></div><div><br></div>7. Check the pending xattrs on the brick directories of the two good copies (on bricks 1 and 2), you should be seeing same values as the one marked in red in both bricks. <br>(note that the client-&lt;num&gt; xattr key will have the same last digit as the index of the brick that is down, when counting from 0. So if the first brick is the one that is down, it would read trusted.afr.*-client-0; if the second brick is the one that is empty and down, it would read trusted.afr.*-client-1 and so on).<br><div><br>[root@server-1 ~]# getfattr -d -m . -e hex /bricks/1<br># file: 1<br>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a6574635f72756e74696d655f743<wbr>a733000<br>trusted.afr.dirty=0x0000000000<wbr>00000000000000<br><span style="color:rgb(255,0,0)"><b>trusted.afr.rep-client-2=0x000<wbr>000000000000100000001</b></span><br>trusted.gfid=0x000000000000000<wbr>00000000000000001<br>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff<br>trusted.glusterfs.volume-id=0x<wbr>a349517bb9d44bdf96da8ea324f89e<wbr>7b<br><br>[root@server-2 ~]# getfattr -d -m . -e hex /bricks/2<br># file: 2<br>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a6574635f72756e74696d655f743<wbr>a733000<br>trusted.afr.dirty=0x0000000000<wbr>00000000000000<br><span style="color:rgb(255,0,0)"><b>trusted.afr.rep-client-2=0x000</b></span><span style="color:rgb(255,0,0)"><b><wbr>000000000000100000001</b></span><br>trusted.gfid=0x000000000000000<wbr>00000000000000001<br>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff<br>trusted.glusterfs.volume-id=0x<wbr>a349517bb9d44bdf96da8ea324f89e<wbr>7b<br><br></div><div>8. Flip the 8th digit in the trusted.afr.&lt;VOLNAME&gt;-client-2 to a 1.<br><br></div><div>[root@server-1 ~]# setfattr -n trusted.afr.rep-client-2 -v <span style="color:rgb(56,118,29)"><b>0x000000010000000100000001</b></span> /bricks/1<br>[root@server-2 ~]# setfattr -n trusted.afr.rep-client-2 -v <b><span style="color:rgb(56,118,29)">0x000000010000000100000001</span></b> /bricks/2<br><br></div><div>9. Get the xattrs again and check the xattrs are set properly now<br><br></div><div>[root@server-1 ~]# getfattr -d -m . -e hex /bricks/1<br># file: 1<br>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a6574635f72756e74696d655f743<wbr>a733000<br>trusted.afr.dirty=0x0000000000<wbr>00000000000000<br><b><span style="color:rgb(56,118,29)">trusted.afr.rep-client-2=0x000</span></b><b><span style="color:rgb(56,118,29)"><wbr>000010000000100000001</span></b><br>trusted.gfid=0x000000000000000<wbr>00000000000000001<br>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff<br>trusted.glusterfs.volume-id=0x<wbr>a349517bb9d44bdf96da8ea324f89e<wbr>7b<br><br>[root@server-2 ~]# getfattr -d -m . -e hex /bricks/2<br># file: 2<br>security.selinux=0x756e636f6e6<wbr>6696e65645f753a6f626a6563745f7<wbr>23a6574635f72756e74696d655f743<wbr>a733000<br>trusted.afr.dirty=0x0000000000<wbr>00000000000000<br><b><span style="color:rgb(56,118,29)">trusted.afr.rep-client-2=0x000</span></b><b><span style="color:rgb(56,118,29)"><wbr>000010000000100000001</span></b><br>trusted.gfid=0x000000000000000<wbr>00000000000000001<br>trusted.glusterfs.dht=0x000000<wbr>010000000000000000ffffffff<br>trusted.glusterfs.volume-id=0x<wbr>a349517bb9d44bdf96da8ea324f89e<wbr>7b<br><br></div><div>10. Force-start the volume.<br></div><div><br>[root@server-1 ~]# gluster volume start rep force<br>volume start: rep: success<br><br></div><div>11. Monitor heal-info command to ensure the number of entries keeps growing.<br><br></div><div>12. Keep monitoring with step 10 and eventually the number of entries needing heal must come down to 0.<br></div><div>Also the checksums of the files on the previously empty brick should now match with the copies on the other two bricks.<br><br></div><div>Could you check if the above steps work for you, in your test environment?<br></div><div><br></div><div>You caught a nice bug in the manual steps to follow when granular entry-heal is enabled and an empty brick needs heal. Thanks for reporting it. :) We will fix the documentation appropriately.<span><font color="#888888"><br><br></font></span></div><span><font color="#888888"><div>-Krutika<br></div><div><br></div></font></span></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Aug 31, 2016 at 11:29 AM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>Tried this.<br><br></div>With me, only &#39;fake2&#39; gets healed after i bring the &#39;empty&#39; brick back up and it stops there unless I do a &#39;heal-full&#39;.<br><br></div>Is that what you&#39;re seeing as well?<span><font color="#888888"><br><br></font></span></div><span><font color="#888888">-Krutika<br></font></span></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Aug 31, 2016 at 4:43 AM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Same issue brought up glusterd on problem node heal count still stuck at 6330.<div><br></div><div>Ran gluster v heal GUSTER1 full</div><div><br></div><div>glustershd on problem node shows a sweep starting and finishing in seconds.  Other 2 nodes show no activity in log.  They should start a sweep too shouldn&#39;t they?</div><div><br></div><div>Tried starting from scratch </div><div><br></div><div><div>kill -15 brickpid</div><div>rm -Rf /brick</div><div>mkdir -p /brick</div><div>mkdir mkdir /gsmount/fake2</div><div>setfattr -n &quot;user.some-name&quot; -v &quot;some-value&quot; /gsmount/fake2<br></div><div><br></div></div><div>Heals visible dirs instantly then stops.</div><div><br></div><div>gluster v heal GLUSTER1 full<br></div><div><br></div><div>see sweep star on problem node and end almost instantly.  no files added t heal list no files healed no more logging</div><div><br></div><div><div>[2016-08-30 23:11:31.544331] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: starting full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-30 23:11:33.776235] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: finished full sweep on subvol GLUSTER1-client-1</div></div><div><br></div><div>same results no matter which node you run command on.  Still stuck with 6330 files showing needing healed out of 19k.  still showing in logs no heals are occuring.</div><div><br></div><div>Is their a way to forcibly reset any prior heal data?  Could it be stuck on some past failed heal start?</div><div><br></div><div><br></div><div><br></div><div class="gmail_extra"><span><br clear="all"><div><div><div dir="ltr"><span><font color="#888888"><span style="color:rgb(0,0,0)"><b><i>David Gossage</i></b></span><font><i><span style="color:rgb(51,51,51)"><b><br>

</b></span></i></font></font></span><div><span><font color="#888888"><font><i><span style="color:rgb(51,51,51)"></span></i><font size="1"><b style="color:rgb(153,0,0)">Carousel Checks Inc.<span style="color:rgb(204,204,204)"> | System Administrator</span></b></font></font><font style="color:rgb(153,153,153)"><font size="1"><br>



</font></font><font><font size="1"><span style="color:rgb(51,51,51)"><b style="color:rgb(153,153,153)">Office</b><span style="color:rgb(153,153,153)"> <a value="+17086132426">708.613.2284<font color="#888888"><font size="1"><br></font></font></a></span></span></font></font></font></span></div></div></div></div>
<br></span><div><div><div class="gmail_quote">On Tue, Aug 30, 2016 at 10:03 AM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Tue, Aug 30, 2016 at 10:02 AM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra">updated test server to 3.8.3</div><div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_extra">Brick1: 192.168.71.10:/gluster2/brick1<wbr>/1</div><div class="gmail_extra">Brick2: 192.168.71.11:/gluster2/brick2<wbr>/1</div><div class="gmail_extra">Brick3: 192.168.71.12:/gluster2/brick3<wbr>/1</div><div class="gmail_extra">Options Reconfigured:</div><div class="gmail_extra">cluster.granular-entry-heal: on</div><div class="gmail_extra">performance.readdir-ahead: on</div><div class="gmail_extra">performance.read-ahead: off</div><div class="gmail_extra">nfs.disable: on</div><div class="gmail_extra">nfs.addr-namelookup: off</div><div class="gmail_extra">nfs.enable-ino32: off</div><div class="gmail_extra">cluster.background-self-heal-c<wbr>ount: 16</div><div class="gmail_extra">cluster.self-heal-window-size: 1024</div><div class="gmail_extra">performance.quick-read: off</div><div class="gmail_extra">performance.io-cache: off</div><div class="gmail_extra">performance.stat-prefetch: off</div><div class="gmail_extra">cluster.eager-lock: enable</div><div class="gmail_extra">network.remote-dio: on</div><div class="gmail_extra">cluster.quorum-type: auto</div><div class="gmail_extra">cluster.server-quorum-type: server</div><div class="gmail_extra">storage.owner-gid: 36</div><div class="gmail_extra">storage.owner-uid: 36</div><div class="gmail_extra">server.allow-insecure: on</div><div class="gmail_extra">features.shard: on</div><div class="gmail_extra">features.shard-block-size: 64MB</div><div class="gmail_extra">performance.strict-o-direct: off</div><div class="gmail_extra">cluster.locking-scheme: granular</div><div><br></div><div>kill -15 brickpid</div><div>rm -Rf /gluster2/brick3</div><div>mkdir -p /gluster2/brick3/1</div><div>mkdir mkdir /rhev/data-center/mnt/glusterS<wbr>D/<a href="http://192.168.71.10" target="_blank">192.168.71.10</a>\:_glustershard<wbr>/fake2</div><div>setfattr -n &quot;user.some-name&quot; -v &quot;some-value&quot; /rhev/data-center/mnt/glusterS<wbr>D/<a href="http://192.168.71.10" target="_blank">192.168.71.10</a>\:_glustershard<wbr>/fake2<br></div><div>gluster v start glustershard force<br></div><div><br></div><div>at this point brick process starts and all visible files including new dir are made on brick</div><div>handful of shards are in heal statistics still but no .shard directory created and no increase in shard count</div><div><br></div><div>gluster v heal glustershard<br></div><div><br></div><div>At this point still no increase in count or dir made no additional activity in logs for healing generated.  waited few minutes tailing logs to check if anything kicked in.</div><div><br></div><div>gluster v heal glustershard full<br></div><div><br></div><div>gluster shards added to list and heal commences.  logs show full sweep starting on all 3 nodes.  though this time it only shows as finishing on one which looks to be the one that had brick deleted.</div><div><br></div><div><div>[2016-08-30 14:45:33.098589] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: starting full sweep on subvol glustershard-client-0</div><div>[2016-08-30 14:45:33.099492] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: starting full sweep on subvol glustershard-client-1</div><div>[2016-08-30 14:45:33.100093] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: starting full sweep on subvol glustershard-client-2</div><div>[2016-08-30 14:52:29.760213] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: finished full sweep on subvol glustershard-client-2</div></div></div></div></blockquote><div><br></div><div>Just realized its still healing so that may be why sweep on 2 other bricks haven&#39;t replied as finished. </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div><br></div><div><br></div><div>my hope is that later tonight a full heal will work on production.  Is it possible self-heal daemon can get stale or stop listening but still show as active?  Would stopping and starting self-heal daemon from gluster cli before doing these heals be helpful?</div><div><br></div><div><br></div><div class="gmail_quote">On Tue, Aug 30, 2016 at 9:29 AM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote">On Tue, Aug 30, 2016 at 8:52 AM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div><div><div dir="ltr"><div>On Tue, Aug 30, 2016 at 8:01 AM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br></div></div></div></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Aug 30, 2016 at 6:20 PM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote"><span>On Tue, Aug 30, 2016 at 6:07 PM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span>On Tue, Aug 30, 2016 at 7:18 AM, Krutika Dhananjay <span dir="ltr">&lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div>Could you also share the glustershd logs?<br></div></div></div></blockquote><div><br></div></span><div>I&#39;ll get them when I get to work sure </div></div></div></div></blockquote></span></div></div></div></blockquote></div></div></div></blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><div><br></div>I tried the same steps that you mentioned multiple times, but heal is running to completion without any issues.<br><br></div><div>It must be said that &#39;heal full&#39; traverses the files and directories in a depth-first order and does heals also in the same order. But if it gets interrupted in the middle (say because self-heal-daemon was either intentionally or unintentionally brought offline and then brought back up), self-heal will only pick up the entries that are so far marked as new-entries that need heal which it will find in indices/xattrop directory. What this means is that those files and directories that were not visited during the crawl, will remain untouched and unhealed in this second iteration of heal, unless you execute a &#39;heal-full&#39; again.<br></div></div></blockquote><div><br></div></span><div>So should it start healing shards as it crawls or not until after it crawls the entire .shard directory?  At the pace it was going that could be a week with one node appearing in the cluster but with no shard files if anything tries to access a file on that node.  From my experience other day telling it to heal full again did nothing regardless of node used.</div></div></div></div></blockquote></span></div></div></div></blockquote><div><br></div><div>Crawl is started from &#39;/&#39; of the volume. Whenever self-heal detects during the crawl that a file or directory is present in some brick(s) and absent in others, it creates the file on the bricks where it is absent and marks the fact that the file or directory might need data/entry and metadata heal too (this also means that an index is created under .glusterfs/indices/xattrop of the src bricks). And the data/entry and metadata heal are picked up and done in </div></div></div></div></blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><div>the background with the help of these indices.<br></div></div></div></div></blockquote><div><br></div><div>Looking at my 3rd node as example i find nearly an exact same number of files in xattrop dir as reported by heal count at time I brought down node2 to try and alleviate read io errors that seemed to occur from what I was guessing as attempts to use the node with no shards for reads.</div><div><br></div><div>Also attached are the glustershd logs from the 3 nodes, along with the test node i tried yesterday with same results.</div></div></div></div></blockquote><div><br></div><div>Looking at my own logs I notice that a full sweep was only ever recorded in glustershd.log on 2nd node with missing directory.  I believe I should have found a sweep begun on every node correct?</div><div><br></div><div>On my test dev when it did work I do see that</div><div><br></div><div><div>[2016-08-30 13:56:25.223333] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: starting full sweep on subvol glustershard-client-0</div><div>[2016-08-30 13:56:25.223522] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: starting full sweep on subvol glustershard-client-1</div><div>[2016-08-30 13:56:25.224616] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: starting full sweep on subvol glustershard-client-2</div><div>[2016-08-30 14:18:48.333740] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: finished full sweep on subvol glustershard-client-2</div><div>[2016-08-30 14:18:48.356008] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: finished full sweep on subvol glustershard-client-1</div><div>[2016-08-30 14:18:49.637811] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-glustershard-replicate-0: finished full sweep on subvol glustershard-client-0</div></div><div><br></div><div>While when looking at past few days of the 3 prod nodes i only found that on my 2nd node</div><div><div>[2016-08-27 01:26:42.638772] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: starting full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 11:37:01.732366] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: finished full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 12:58:34.597228] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: starting full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 12:59:28.041173] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: finished full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 20:03:42.560188] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: starting full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 20:03:44.278274] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: finished full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 21:00:42.603315] I [MSGID: 108026] [afr-self-heald.c:646:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: starting full sweep on subvol GLUSTER1-client-1</div><div>[2016-08-27 21:00:46.148674] I [MSGID: 108026] [afr-self-heald.c:656:afr_shd_<wbr>full_healer] 0-GLUSTER1-replicate-0: finished full sweep on subvol GLUSTER1-client-1</div></div><div><br></div><div><br></div><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><br></div><div>My suspicion is that this is what happened on your setup. Could you confirm if that was the case?<br></div></div></blockquote><div><br></div></span><div>Brick was brought online with force start then a full heal launched.  Hours later after it became evident that it was not adding new files to heal I did try restarting self-heal daemon and relaunching full heal again. But this was after the heal had basically already failed to work as intended.</div></div></div></div></blockquote><div><br></div></span><div>OK. How did you figure it was not adding any new files? I need to know what places you were monitoring to come to this conclusion.<span><font color="#888888"><br><br></font></span></div><span><font color="#888888"><div>-Krutika<br> <br></div></font></span><div><div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div><br></div><div>As for those logs, I did manager to do something that caused these warning messages you shared earlier to appear in my client and server logs.<br>Although these logs are annoying and a bit scary too, they didn&#39;t do any harm to the data in my volume. Why they appear just after a brick is replaced and under no other circumstances is something I&#39;m still investigating.<br></div><div><br></div><div>But for future, it would be good to follow the steps Anuradha gave as that would allow self-heal to at least detect that it has some repairing to do whenever it is restarted whether intentionally or otherwise.<br></div></div></blockquote><div><br></div></span><div>I followed those steps as described on my test box and ended up with exact same outcome of adding shards at an agonizing slow pace and no creation of .shard directory or heals on shard directory.  Directories visible from mount healed quickly.  This was with one VM so it has only 800 shards as well.  After hours at work it had added a total of 33 shards to be healed.  I sent those logs yesterday as well though not the glustershd.</div><div><br></div><div>Does replace-brick command copy files in same manner?  For these purposes I am contemplating just skipping the heal route.</div><div><div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div></div><div><br></div><div>-Krutika<br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Aug 30, 2016 at 2:22 AM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div><div><div dir="ltr"><div>attached brick and client logs from test machine where same behavior occurred not sure if anything new is there.  its still on 3.8.2</div><div><br></div><div><div>Number of Bricks: 1 x 3 = 3</div><div>Transport-type: tcp</div><div>Bricks:</div><div>Brick1: 192.168.71.10:/gluster2/brick1<wbr>/1</div><div>Brick2: 192.168.71.11:/gluster2/brick2<wbr>/1</div><div>Brick3: 192.168.71.12:/gluster2/brick3<wbr>/1</div><div>Options Reconfigured:</div><div>cluster.locking-scheme: granular</div><div>performance.strict-o-direct: off</div><div>features.shard-block-size: 64MB</div><div>features.shard: on</div><div>server.allow-insecure: on</div><div>storage.owner-uid: 36</div><div>storage.owner-gid: 36</div><div>cluster.server-quorum-type: server</div><div>cluster.quorum-type: auto</div><div>network.remote-dio: on</div><div>cluster.eager-lock: enable</div><div>performance.stat-prefetch: off</div><div>performance.io-cache: off</div><div>performance.quick-read: off</div><div>cluster.self-heal-window-size: 1024</div><div>cluster.background-self-heal-c<wbr>ount: 16</div><div>nfs.enable-ino32: off</div><div>nfs.addr-namelookup: off</div><div>nfs.disable: on</div><div>performance.read-ahead: off</div><div>performance.readdir-ahead: on</div><div>cluster.granular-entry-heal: on</div></div><div><br></div><div><br></div><div><br></div></div></div></div><div><div><div class="gmail_quote">On Mon, Aug 29, 2016 at 2:20 PM, David Gossage <span dir="ltr">&lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div><div><div dir="ltr"><div>On Mon, Aug 29, 2016 at 7:01 AM, Anuradha Talur <span dir="ltr">&lt;<a href="mailto:atalur@redhat.com" target="_blank">atalur@redhat.com</a>&gt;</span> wrote:<br></div></div></div></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><br>
<br>
----- Original Message -----<br>
&gt; From: &quot;David Gossage&quot; &lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;<br>
&gt; To: &quot;Anuradha Talur&quot; &lt;<a href="mailto:atalur@redhat.com" target="_blank">atalur@redhat.com</a>&gt;<br>
&gt; Cc: &quot;<a href="mailto:gluster-users@gluster.org" target="_blank">gluster-users@gluster.org</a> List&quot; &lt;<a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a>&gt;, &quot;Krutika Dhananjay&quot; &lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;<br>
&gt; Sent: Monday, August 29, 2016 5:12:42 PM<br>
&gt; Subject: Re: [Gluster-users] 3.8.3 Shards Healing Glacier Slow<br>
&gt;<br>
&gt; On Mon, Aug 29, 2016 at 5:39 AM, Anuradha Talur &lt;<a href="mailto:atalur@redhat.com" target="_blank">atalur@redhat.com</a>&gt; wrote:<br>
&gt;<br>
&gt; &gt; Response inline.<br>
&gt; &gt;<br>
&gt; &gt; ----- Original Message -----<br>
&gt; &gt; &gt; From: &quot;Krutika Dhananjay&quot; &lt;<a href="mailto:kdhananj@redhat.com" target="_blank">kdhananj@redhat.com</a>&gt;<br>
&gt; &gt; &gt; To: &quot;David Gossage&quot; &lt;<a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a>&gt;<br>
&gt; &gt; &gt; Cc: &quot;<a href="mailto:gluster-users@gluster.org" target="_blank">gluster-users@gluster.org</a> List&quot; &lt;<a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a>&gt;<br>
&gt; &gt; &gt; Sent: Monday, August 29, 2016 3:55:04 PM<br>
&gt; &gt; &gt; Subject: Re: [Gluster-users] 3.8.3 Shards Healing Glacier Slow<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Could you attach both client and brick logs? Meanwhile I will try these<br>
&gt; &gt; steps<br>
&gt; &gt; &gt; out on my machines and see if it is easily recreatable.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; -Krutika<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; On Mon, Aug 29, 2016 at 2:31 PM, David Gossage &lt;<br>
&gt; &gt; <a href="mailto:dgossage@carouselchecks.com" target="_blank">dgossage@carouselchecks.com</a><br>
&gt; &gt; &gt; &gt; wrote:<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Centos 7 Gluster 3.8.3<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Brick1: ccgl1.gl.local:/gluster1/BRICK<wbr>1/1<br>
&gt; &gt; &gt; Brick2: ccgl2.gl.local:/gluster1/BRICK<wbr>1/1<br>
&gt; &gt; &gt; Brick3: ccgl4.gl.local:/gluster1/BRICK<wbr>1/1<br>
&gt; &gt; &gt; Options Reconfigured:<br>
&gt; &gt; &gt; cluster.data-self-heal-algorit<wbr>hm: full<br>
&gt; &gt; &gt; cluster.self-heal-daemon: on<br>
&gt; &gt; &gt; cluster.locking-scheme: granular<br>
&gt; &gt; &gt; features.shard-block-size: 64MB<br>
&gt; &gt; &gt; features.shard: on<br>
&gt; &gt; &gt; performance.readdir-ahead: on<br>
&gt; &gt; &gt; storage.owner-uid: 36<br>
&gt; &gt; &gt; storage.owner-gid: 36<br>
&gt; &gt; &gt; performance.quick-read: off<br>
&gt; &gt; &gt; performance.read-ahead: off<br>
&gt; &gt; &gt; performance.io-cache: off<br>
&gt; &gt; &gt; performance.stat-prefetch: on<br>
&gt; &gt; &gt; cluster.eager-lock: enable<br>
&gt; &gt; &gt; network.remote-dio: enable<br>
&gt; &gt; &gt; cluster.quorum-type: auto<br>
&gt; &gt; &gt; cluster.server-quorum-type: server<br>
&gt; &gt; &gt; server.allow-insecure: on<br>
&gt; &gt; &gt; cluster.self-heal-window-size: 1024<br>
&gt; &gt; &gt; cluster.background-self-heal-c<wbr>ount: 16<br>
&gt; &gt; &gt; performance.strict-write-order<wbr>ing: off<br>
&gt; &gt; &gt; nfs.disable: on<br>
&gt; &gt; &gt; nfs.addr-namelookup: off<br>
&gt; &gt; &gt; nfs.enable-ino32: off<br>
&gt; &gt; &gt; cluster.granular-entry-heal: on<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; Friday did rolling upgrade from 3.8.3-&gt;3.8.3 no issues.<br>
&gt; &gt; &gt; Following steps detailed in previous recommendations began proces of<br>
&gt; &gt; &gt; replacing and healngbricks one node at a time.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; 1) kill pid of brick<br>
&gt; &gt; &gt; 2) reconfigure brick from raid6 to raid10<br>
&gt; &gt; &gt; 3) recreate directory of brick<br>
&gt; &gt; &gt; 4) gluster volume start &lt;&gt; force<br>
&gt; &gt; &gt; 5) gluster volume heal &lt;&gt; full<br>
&gt; &gt; Hi,<br>
&gt; &gt;<br>
&gt; &gt; I&#39;d suggest that full heal is not used. There are a few bugs in full heal.<br>
&gt; &gt; Better safe than sorry ;)<br>
&gt; &gt; Instead I&#39;d suggest the following steps:<br>
&gt; &gt;<br>
&gt; &gt; Currently I brought the node down by systemctl stop glusterd as I was<br>
&gt; getting sporadic io issues and a few VM&#39;s paused so hoping that will help.<br>
&gt; I may wait to do this till around 4PM when most work is done in case it<br>
&gt; shoots load up.<br>
&gt;<br>
&gt;<br>
&gt; &gt; 1) kill pid of brick<br>
&gt; &gt; 2) to configuring of brick that you need<br>
&gt; &gt; 3) recreate brick dir<br>
&gt; &gt; 4) while the brick is still down, from the mount point:<br>
&gt; &gt;    a) create a dummy non existent dir under / of mount.<br>
&gt; &gt;<br>
&gt;<br>
&gt; so if noee 2 is down brick, pick node for example 3 and make a test dir<br>
&gt; under its brick directory that doesnt exist on 2 or should I be dong this<br>
&gt; over a gluster mount?<br>
You should be doing this over gluster mount.<br>
&gt;<br>
&gt; &gt;    b) set a non existent extended attribute on / of mount.<br>
&gt; &gt;<br>
&gt;<br>
&gt; Could you give me an example of an attribute to set?   I&#39;ve read a tad on<br>
&gt; this, and looked up attributes but haven&#39;t set any yet myself.<br>
&gt;<br>
Sure. setfattr -n &quot;user.some-name&quot; -v &quot;some-value&quot; &lt;path-to-mount&gt;<br>
&gt; Doing these steps will ensure that heal happens only from updated brick to<br>
&gt; &gt; down brick.<br>
&gt; &gt; 5) gluster v start &lt;&gt; force<br>
&gt; &gt; 6) gluster v heal &lt;&gt;<br>
&gt; &gt;<br>
&gt;<br>
&gt; Will it matter if somewhere in gluster the full heal command was run other<br>
&gt; day?  Not sure if it eventually stops or times out.<br>
&gt;<br>
full heal will stop once the crawl is done. So if you want to trigger heal again,<br>
run gluster v heal &lt;&gt;. Actually even brick up or volume start force should<br>
trigger the heal.<br>
</blockquote><div><br></div><div>Did this on test bed today.  its one server with 3 bricks on same machine so take that for what its worth.  also it still runs 3.8.2.  Maybe ill update and re-run test.</div><div><br></div><div>killed brick</div><div>deleted brick dir</div><div>recreated brick dir</div><div>created fake dir on gluster mount</div><div>set suggested fake attribute on it</div><div>ran volume start &lt;&gt; force</div><div><br></div><div>looked at files it said needed healing and it was just 8 shards that were modified for few minutes I ran through steps</div><div><br></div><div>gave it few minutes and it stayed same</div><div>ran gluster volume &lt;&gt; heal</div><div><br></div><div>it healed all the directories and files you can see over mount including fakedir.  </div><div><br></div><div>same issue for shards though.  it adds more shards to heal at glacier pace.  slight jump in speed if I stat every file and dir in VM running but not all shards.</div><div><br></div><div>It started with 8 shards to heal and is now only at 33 out of 800 and probably wont finish adding for few days at rate it goes.</div><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">&gt; &gt;<br>
&gt; &gt; &gt; 1st node worked as expected took 12 hours to heal 1TB data. Load was<br>
&gt; &gt; little<br>
&gt; &gt; &gt; heavy but nothing shocking.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; About an hour after node 1 finished I began same process on node2. Heal<br>
&gt; &gt; &gt; proces kicked in as before and the files in directories visible from<br>
&gt; &gt; mount<br>
&gt; &gt; &gt; and .glusterfs healed in short time. Then it began crawl of .shard adding<br>
&gt; &gt; &gt; those files to heal count at which point the entire proces ground to a<br>
&gt; &gt; halt<br>
&gt; &gt; &gt; basically. After 48 hours out of 19k shards it has added 5900 to heal<br>
&gt; &gt; list.<br>
&gt; &gt; &gt; Load on all 3 machnes is negligible. It was suggested to change this<br>
&gt; &gt; value<br>
&gt; &gt; &gt; to full cluster.data-self-heal-algorit<wbr>hm and restart volume which I<br>
&gt; &gt; did. No<br>
&gt; &gt; &gt; efffect. Tried relaunching heal no effect, despite any node picked. I<br>
&gt; &gt; &gt; started each VM and performed a stat of all files from within it, or a<br>
&gt; &gt; full<br>
&gt; &gt; &gt; virus scan and that seemed to cause short small spikes in shards added,<br>
&gt; &gt; but<br>
&gt; &gt; &gt; not by much. Logs are showing no real messages indicating anything is<br>
&gt; &gt; going<br>
&gt; &gt; &gt; on. I get hits to brick log on occasion of null lookups making me think<br>
&gt; &gt; its<br>
&gt; &gt; &gt; not really crawling shards directory but waiting for a shard lookup to<br>
&gt; &gt; add<br>
&gt; &gt; &gt; it. I&#39;ll get following in brick log but not constant and sometime<br>
&gt; &gt; multiple<br>
&gt; &gt; &gt; for same shard.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; [2016-08-29 08:31:57.478125] W [MSGID: 115009]<br>
&gt; &gt; &gt; [server-resolve.c:569:server_r<wbr>esolve] 0-GLUSTER1-server: no resolution<br>
&gt; &gt; type<br>
&gt; &gt; &gt; for (null) (LOOKUP)<br>
&gt; &gt; &gt; [2016-08-29 08:31:57.478170] E [MSGID: 115050]<br>
&gt; &gt; &gt; [server-rpc-fops.c:156:server_<wbr>lookup_cbk] 0-GLUSTER1-server: 12591783:<br>
&gt; &gt; &gt; LOOKUP (null) (00000000-0000-0000-00<br>
&gt; &gt; &gt; 00-000000000000/241a55ed-f0d5-<wbr>4dbc-a6ce-ab784a0ba6ff.221) ==&gt; (Invalid<br>
&gt; &gt; &gt; argument) [Invalid argument]<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; This one repeated about 30 times in row then nothing for 10 minutes then<br>
&gt; &gt; one<br>
&gt; &gt; &gt; hit for one different shard by itself.<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; How can I determine if Heal is actually running? How can I kill it or<br>
&gt; &gt; force<br>
&gt; &gt; &gt; restart? Does node I start it from determine which directory gets<br>
&gt; &gt; crawled to<br>
&gt; &gt; &gt; determine heals?<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; David Gossage<br>
&gt; &gt; &gt; Carousel Checks Inc. | System Administrator<br>
&gt; &gt; &gt; Office <a href="tel:708.613.2284" value="+17086132284" target="_blank">708.613.2284</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; &gt; Gluster-users mailing list<br>
&gt; &gt; &gt; <a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a><br>
&gt; &gt; &gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" rel="noreferrer" target="_blank">http://www.gluster.org/mailman<wbr>/listinfo/gluster-users</a><br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt;<br>
&gt; &gt; &gt; ______________________________<wbr>_________________<br>
&gt; &gt; &gt; Gluster-users mailing list<br>
&gt; &gt; &gt; <a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a><br>
&gt; &gt; &gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" rel="noreferrer" target="_blank">http://www.gluster.org/mailman<wbr>/listinfo/gluster-users</a><br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; Thanks,<br>
&gt; &gt; Anuradha.<br>
&gt; &gt;<br>
&gt;<span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br>
<span><font color="#888888"><br>
--<br>
Thanks,<br>
Anuradha.<br>
</font></span></font></span></font></span></font></span></font></span></font></span></font></span></blockquote></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></font></span></font></span></font></span></div></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888">
</font></span></font></span></font></span></font></span></font></span></blockquote></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></font></span></font></span></font></span></div></div></div></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888">
</font></span></font></span></font></span></font></span></blockquote></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></font></span></font></span></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888">
</font></span></font></span></font></span></font></span></blockquote></div></div></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></font></span></font></span></div></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888">
</font></span></font></span></font></span></font></span></blockquote></div></div></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></font></span></font></span></div></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888">
</font></span></font></span></font></span></blockquote></div><span><font color="#888888"><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></font></span></div></div><span><font color="#888888"><span><font color="#888888">
</font></span></font></span></blockquote></div><span><font color="#888888"><span><font color="#888888"><br></font></span></font></span></div></div><span><font color="#888888">
</font></span></blockquote></div><span><font color="#888888"><br></font></span></div></div>
</blockquote></div><br></div></div>
</blockquote></div><br></div></div>
</blockquote></div><br></div></div></div></div>
</blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br></div>
</blockquote></div><br></div></div></div>
</blockquote></div><br></div></div>