<div dir="ltr">Morning everyone,<div><br></div><div>Hoping someone can help me out with this.  I&#39;ve been running GlusterFS for awhile now and everything was great.  Now for about the last month I&#39;m lucky if it runs for a few days without crashing and bringing all the servers down.</div><div><br></div><div>Here&#39;s what I can see in the logs when a failure occurs.  I see this across all three hosts in the cluster.</div><div><br></div><div><div>[2015-05-19 04:12:33.761831] C [rpc-clnt-ping.c:109:rpc_clnt_ping_timer_expired] 0-www-client-0: server x.x.x.x:49157 has not responded in</div><div>the last 42 seconds, disconnecting.</div><div>[2015-05-19 04:12:33.762269] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x1e0)[0x7ff0ae43c550]</div><div> (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind+0x1e7)[0x7ff0ae211787] (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy+0xe)[0x7ff0ae2118</div><div>9e] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup+0x91)[0x7ff0ae211951] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify+0x15f)[0x7ff</div><div>0ae211f1f] ))))) 0-www-client-0: forced unwinding frame type(GlusterFS 3.3) op(OPENDIR(20)) called at 2015-05-19 04:11:51.000813 (xid=0x4a67)</div><div>[2015-05-19 04:12:33.762302] E [client-rpc-fops.c:2686:client3_3_opendir_cbk] 0-www-client-0: remote operation failed: Transport endpoint is n</div><div>ot connected. Path: &lt;gfid:a1fb01c7-bc8e-4854-9760-8da8d62519bc&gt; (a1fb01c7-bc8e-4854-9760-8da8d62519bc)</div><div>[2015-05-19 04:12:33.762436] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x1e0)[0x7ff0ae43c550]</div><div> (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind+0x1e7)[0x7ff0ae211787] (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy+0xe)[0x7ff0ae2118</div><div>9e] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup+0x91)[0x7ff0ae211951] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify+0x15f)[0x7ff</div><div>0ae211f1f] ))))) 0-www-client-0: forced unwinding frame type(GF-DUMP) op(NULL(2)) called at 2015-05-19 04:11:51.000832 (xid=0x4a68)</div><div>[2015-05-19 04:12:33.762455] W [rpc-clnt-ping.c:154:rpc_clnt_ping_cbk] 0-www-client-0: socket disconnected</div><div>[2015-05-19 04:16:45.804515] C [rpc-clnt-ping.c:109:rpc_clnt_ping_timer_expired] 0-www-conf-client-0: server x.x.x.x:49156 has not responde</div><div>d in the last 42 seconds, disconnecting.</div><div>[2015-05-19 04:16:45.804884] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn+0x1e0)[0x7ff0ae43c550]</div><div> (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind+0x1e7)[0x7ff0ae211787] (--&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy+0xe)[0x7ff0ae2118</div><div>9e] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup+0x91)[0x7ff0ae211951] (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify+0x15f)[0x7ff</div><div>0ae211f1f] ))))) 0-www-conf-client-0: forced unwinding frame type(GlusterFS 3.3) op(OPENDIR(20)) called at 2015-05-19 04:16:03.000774 (xid=0x4</div><div>a83)</div></div><div><br></div><div>Here&#39;s info about the version I&#39;m running:</div><div><br></div><div><div>glusterfs 3.6.3 built on Apr 23 2015 16:12:23</div><div>Repository revision: git://<a href="http://git.gluster.com/glusterfs.git">git.gluster.com/glusterfs.git</a></div><div>Copyright (c) 2006-2013 Red Hat, Inc. &lt;<a href="http://www.redhat.com/">http://www.redhat.com/</a>&gt;</div><div>GlusterFS comes with ABSOLUTELY NO WARRANTY.</div><div>It is licensed to you under your choice of the GNU Lesser</div><div>General Public License, version 3 or any later version (LGPLv3</div><div>or later), or the GNU General Public License, version 2 (GPLv2),</div><div>in all cases as published by the Free Software Foundation.</div></div><div><br></div><div><br></div><div>Any insight would be appreciated,</div><div><br></div></div>