<div dir="ltr">Hi,<div><br></div><div>I have a 3-node replicated cluster using the native glusterfs mount, and through some heavy IO load, the gluster logs show that one of the clients (Client A) disconnected from one of the bricks (Brick 1) because of a 42 second ping timeout.</div><div><br></div><div>After waiting two hours, Client A never reconnected back to Brick 1, even after stopping the heavy IO load.  To verify, I added a new file to the mount on Client A and verified that Brick 1 did not get the file.  Also verified that when calling &quot;gluster volume heal &lt;vol&gt; info&quot;, the new file appears on the heal list.  This file never gets healed.</div><div><br></div><div>Then I tried to add a file to Client B and verified that the file got added to Brick 1.  Which means Brick 1 is only disconnected from Client A.</div><div><br></div><div>I have 3 questions:</div><div>1.  How can you tell if a client has disconnected from a brick (for monitoring purposes)?  Right now, I am doing a hacky method by looking at the client logs and looking for specific messages.</div><div>2.  How long does it take for a client to reconnect to a brick or does it ever?  </div><div>3.  If it doesn&#39;t, is there something I can do to reconnect without losing quorum?</div><div>4.  If it does, is this configurable?</div><div><br></div><div>Thank you.</div></div>

<br>
<a href="http://www.appian.com" target="_blank"><img src="http://www.appian.com/sig/appian_email_sig_logo.jpg"></a><span style="font-size:x-small"><br>This message and any attachments are solely for the intended recipient. If you are not the intended recipient, disclosure, copying, use, or distribution of the information included in this message is prohibited -- please immediately and permanently delete this message.</span>