<div dir="ltr"><div><div>Sorry, I was referring to the glusterfs client logs.<br><br></div>Assuming you are using FUSE mount, your log file will be in /var/log/glusterfs/&lt;hyphenated-mount-point-path&gt;.log<br><br></div>-Krutika<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Sun, Apr 17, 2016 at 9:37 PM, Kevin Lemonnier <span dir="ltr">&lt;<a href="mailto:lemonnierk@ulrar.net" target="_blank">lemonnierk@ulrar.net</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I believe Proxmox is just an interface to KVM that uses the lib, so if I&#39;m not mistaken there isn&#39;t client logs ?<br>
<br>
It&#39;s not the first time I have the issue, it happens on every heal on the 2 clusters I have.<br>
<br>
I did let the heal finish that night and the VMs are working now, but it is pretty scarry for future crashes or brick replacement.<br>
Should I maybe lower the shard size ? Won&#39;t solve the fact that 2 bricks on 3 aren&#39;t keeping the filesystem usable but might make the healing quicker right ?<br>
<br>
Thanks<br>
<div class="HOEnZb"><div class="h5"><br>
Le 17 avril 2016 17:56:37 GMT+02:00, Krutika Dhananjay &lt;<a href="mailto:kdhananj@redhat.com">kdhananj@redhat.com</a>&gt; a écrit :<br>
&gt;Could you share the client logs and information about the approx<br>
&gt;time/day<br>
&gt;when you saw this issue?<br>
&gt;<br>
&gt;-Krutika<br>
&gt;<br>
&gt;On Sat, Apr 16, 2016 at 12:57 AM, Kevin Lemonnier<br>
&gt;&lt;<a href="mailto:lemonnierk@ulrar.net">lemonnierk@ulrar.net</a>&gt;<br>
&gt;wrote:<br>
&gt;<br>
&gt;&gt; Hi,<br>
&gt;&gt;<br>
&gt;&gt; We have a small glusterFS 3.7.6 cluster with 3 nodes running with<br>
&gt;proxmox<br>
&gt;&gt; VM&#39;s on it. I did set up the different recommended option like the<br>
&gt;virt<br>
&gt;&gt; group, but<br>
&gt;&gt; by hand since it&#39;s on debian. The shards are 256MB, if that matters.<br>
&gt;&gt;<br>
&gt;&gt; This morning the second node crashed, and as it came back up started<br>
&gt;a<br>
&gt;&gt; heal, but that basically froze all the VM&#39;s running on that volume.<br>
&gt;Since<br>
&gt;&gt; we really really<br>
&gt;&gt; can&#39;t have 40 minutes down time in the middle of the day, I just<br>
&gt;removed<br>
&gt;&gt; the node from the network and that stopped the heal, allowing the<br>
&gt;VM&#39;s to<br>
&gt;&gt; access<br>
&gt;&gt; their disks again. The plan was to re-connecte the node in a couple<br>
&gt;of<br>
&gt;&gt; hours to let it heal at night.<br>
&gt;&gt; But a VM crashed now, and it can&#39;t boot up again : seems to freez<br>
&gt;trying<br>
&gt;&gt; to access the disks.<br>
&gt;&gt;<br>
&gt;&gt; Looking at the heal info for the volume, it has gone way up since<br>
&gt;this<br>
&gt;&gt; morning, it looks like the VM&#39;s aren&#39;t writing to both nodes, just<br>
&gt;the one<br>
&gt;&gt; they are on.<br>
&gt;&gt; It seems pretty bad, we have 2 nodes on 3 up, I would expect the<br>
&gt;volume to<br>
&gt;&gt; work just fine since it has quorum. What am I missing ?<br>
&gt;&gt;<br>
&gt;&gt; It is still too early to start the heal, is there a way to start the<br>
&gt;VM<br>
&gt;&gt; anyway right now ? I mean, it was running a moment ago so the data is<br>
&gt;&gt; there, it just needs<br>
&gt;&gt; to let the VM access it.<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Volume Name: vm-storage<br>
&gt;&gt; Type: Replicate<br>
&gt;&gt; Volume ID: a5b19324-f032-4136-aaac-5e9a4c88aaef<br>
&gt;&gt; Status: Started<br>
&gt;&gt; Number of Bricks: 1 x 3 = 3<br>
&gt;&gt; Transport-type: tcp<br>
&gt;&gt; Bricks:<br>
&gt;&gt; Brick1: first_node:/mnt/vg1-storage<br>
&gt;&gt; Brick2: second_node:/mnt/vg1-storage<br>
&gt;&gt; Brick3: third_node:/mnt/vg1-storage<br>
&gt;&gt; Options Reconfigured:<br>
&gt;&gt; cluster.quorum-type: auto<br>
&gt;&gt; cluster.server-quorum-type: server<br>
&gt;&gt; network.remote-dio: enable<br>
&gt;&gt; cluster.eager-lock: enable<br>
&gt;&gt; performance.readdir-ahead: on<br>
&gt;&gt; performance.quick-read: off<br>
&gt;&gt; performance.read-ahead: off<br>
&gt;&gt; performance.io-cache: off<br>
&gt;&gt; performance.stat-prefetch: off<br>
&gt;&gt; features.shard: on<br>
&gt;&gt; features.shard-block-size: 256MB<br>
&gt;&gt; cluster.server-quorum-ratio: 51%<br>
&gt;&gt;<br>
&gt;&gt;<br>
&gt;&gt; Thanks for your help<br>
&gt;&gt;<br>
&gt;&gt; --<br>
&gt;&gt; Kevin Lemonnier<br>
&gt;&gt; PGP Fingerprint : 89A5 2283 04A0 E6E9 0111<br>
&gt;&gt;<br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; Gluster-users mailing list<br>
&gt;&gt; <a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
&gt;&gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" rel="noreferrer" target="_blank">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>
&gt;&gt;<br>
<br>
</div></div><span class="HOEnZb"><font color="#888888">--<br>
Envoyé de mon appareil Android avec K-9 Mail. Veuillez excuser ma brièveté.<br>
</font></span><div class="HOEnZb"><div class="h5">_______________________________________________<br>
Gluster-users mailing list<br>
<a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
<a href="http://www.gluster.org/mailman/listinfo/gluster-users" rel="noreferrer" target="_blank">http://www.gluster.org/mailman/listinfo/gluster-users</a></div></div></blockquote></div><br></div>