<p dir="ltr">-Atin<br>
Sent from one plus one<br>
On Dec 17, 2015 3:21 PM, &quot;Nicolas Ecarnot&quot; &lt;<a href="mailto:nicolas@ecarnot.net">nicolas@ecarnot.net</a>&gt; wrote:<br>
&gt;<br>
&gt; Le 17/12/2015 10:10, Nicolas Ecarnot a écrit :<br>
&gt;&gt;<br>
&gt;&gt; Hello,<br>
&gt;&gt;<br>
&gt;&gt; Our setup : 3 Centos 7.2 nodes, with gluster 3.7.6 in replica-3, used as<br>
&gt;&gt; storage+compute for an oVirt 3.5.6 DC.<br>
&gt;&gt;<br>
&gt;&gt; Two days ago, we added some nagios/centreon monitoring watching every 5<br>
&gt;&gt; minutes the state of the heal queue :<br>
&gt;&gt; (something like &quot;gluster volume heal some_vol info&quot; with the adequate<br>
&gt;&gt; grep).<br>
&gt;&gt;<br>
&gt;&gt; I expected the &quot;Number of entries&quot; of every node to appear in the graph<br>
&gt;&gt; as a flat zero line, most of the times, except for the rare cases of<br>
&gt;&gt; node reboot, after which healing is launched and takes some minutes<br>
&gt;&gt; (sometimes hours) but is doing good.<br>
&gt;&gt;<br>
&gt;&gt; Instead, we see that the healing queue is doing 2 or 3 files healing say<br>
&gt;&gt; 4 times an hour. All day long.<br>
&gt;&gt;<br>
&gt;&gt; Our DC is a small one, and has few VMs, so not more than only 8 big<br>
&gt;&gt; files are stored in glusterfs.<br>
&gt;&gt; I&#39;m very surprised to see that these files constantly need healing, as I<br>
&gt;&gt; thought I&#39;ve understood that read/writes were synchronous at every time,<br>
&gt;&gt; and replica-3 meant that every files were absolutely synced and commited<br>
&gt;&gt; at all time.<br>
&gt;&gt;<br>
&gt;&gt; I&#39;ve also read about the 10 minutes cron-like job of the self-healing<br>
&gt;&gt; daemon, which we are using by default, but this is a second point.<br>
&gt;&gt;<br>
&gt;&gt; The first point leads to :<br>
&gt;&gt; - Why do we see so frequent desynchronizations between nodes?<br>
&gt;&gt; - Can I confirm that reading which logs?<br>
&gt;&gt; - What must I check?<br>
&gt;&gt;<br>
&gt;<br>
&gt; Self-replying, but as I found :<br>
&gt; <a href="https://www.mail-archive.com/gluster-users%40gluster.org/msg20611.html">https://www.mail-archive.com/gluster-users%40gluster.org/msg20611.html</a><br>
&gt;<br>
&gt; could this make sense to be surprised to see that :<br>
&gt;<br>
&gt; gluster volume get data cluster.op-version<br>
&gt; Option                                  Value <br>
&gt; ------                                  ----- <br>
&gt; cluster.op-version                      30600<br>
&gt;<br>
&gt; in a 3.7.6 gluster cluster?<br>
That&#39;s normal as after upgrade an explicit op version bumping is required. In this case post 3.6 op version was never bumped up.<br>
&gt;<br>
&gt; I have absolutely no idea of what this means nor how this changes anything. But I see many things in my logs like :<br>
&gt;<br>
&gt; Server and Client lk-version numbers are not same, reopening the fds<br>
This has nothing to do with op-version and glusterd.<br>
&gt;<br>
&gt; and<br>
&gt;<br>
&gt; many many errors in etc-glusterfs-glusterd.vol.log about<br>
&gt; missing options, other points like &#39;Unable to release lock&#39;, very frequent vol reqs :<br>
&gt; <a href="http://pastebin.com/e6nQfeLx">http://pastebin.com/e6nQfeLx</a><br>
Again this is expected if concurrent commands on same volume is executed from different CLIs.<br>
&gt;<br>
&gt; What is op-version used for?<br>
To be precise, it depicts what version the entire cluster can operate at.<br>
&gt;<br>
&gt;<br>
&gt; -- <br>
&gt; Nicolas ECARNOT<br>
&gt; _______________________________________________<br>
&gt; Gluster-users mailing list<br>
&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>
</p>