<div style="line-height:1.7;color:#000000;font-size:14px;font-family:Arial"><br><div>Hi Kaushal,</div><div><br></div><div>It is great.</div><div>This patch could fix my issue.</div><div><br></div><div>Thanks,</div><div>Xin</div><br><br><div style="position:relative;zoom:1"></div><div id="divNeteaseMailCard"></div><br><pre><br>At 2016-11-25 14:57:56, "Kaushal M" &lt;kshlmster@gmail.com&gt; wrote:
&gt;On Fri, Nov 25, 2016 at 12:03 PM, songxin &lt;songxin_1980@126.com&gt; wrote:
&gt;&gt; Hi Atin
&gt;&gt; I found a  problem, that is about client(glusterfs) will not trying to
&gt;&gt; reconnect to server(glusterfsd) after disconnect.
&gt;&gt; Actually, it seems caused by race condition.
&gt;&gt;
&gt;&gt;
&gt;&gt; Precondition
&gt;&gt;
&gt;&gt; The glusterfs version is 3.7.6.
&gt;&gt; I create a replicate volume using two node, A node and B node.One brick is
&gt;&gt; on A node and another brick is on B node.
&gt;&gt; A node ip:10.32.1.144
&gt;&gt; B node ip:10.32.0.48
&gt;&gt;
&gt;&gt;
&gt;&gt; The phenomenon is following.
&gt;&gt;
&gt;&gt; Firstly, the client(glusterfs) on A board disconnect with server(glusterfsd)
&gt;&gt; on B board.The log is following.
&gt;&gt; ...
&gt;&gt; readv on 10.32.0.48:49309 failed (No data available)
&gt;&gt; ...
&gt;&gt;
&gt;&gt; And then the client(glusterfs) on A board disconnect with server(glusterfsd)
&gt;&gt; on A board.The log is following.
&gt;&gt; ...
&gt;&gt; readv on 10.32.1.144:49391 failed (Connection reset by peer)
&gt;&gt; ...
&gt;&gt;
&gt;&gt; After that, all operation in mount point will show "Transport endpoint is
&gt;&gt; not connected" until client reconnect with server(glusterfsd) on B board.
&gt;&gt;
&gt;&gt;
&gt;&gt; The client log is following.And I have highlight the important line.
&gt;&gt; ...
&gt;&gt; [2016-10-31 04:06:03.626047] W [socket.c:588:__socket_rwv]
&gt;&gt; 0-c_glusterfs-client-9: readv on 10.32.1.144:49391 failed (Connection reset
&gt;&gt; by peer)
&gt;&gt; [2016-10-31 04:06:03.627345] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt;
&gt;&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn-0xb5c80)[0x3fff8ab79f58] (
&gt;&gt;                                                                      --&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind-0x1b7a0)[0x3fff8ab1dc90] (
&gt;&gt;                                                                      --&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy-0x1b638)[0x3fff8ab1de10] (
&gt;&gt;                                                                      --&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup-0x19af8)[0x3fff8ab1fb18]
&gt;&gt; (
&gt;&gt;                                                                      --&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify-0x18e68)[0x3fff8ab20808] )))))
&gt;&gt;
&gt;&gt; 0-c_glusterfs-client-9: forced unwinding frame type(GlusterFS 3.3)
&gt;&gt;
&gt;&gt; op(FINODELK(30)) called at 2016-10-31 04:06:03.626033 (xid=0x7f5e)
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.627395] E [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:1673:client3_3_finodelk_cbk] 0-c_glusterfs-client-9:
&gt;&gt; remote operation failed [Transport endpoint is not connected]
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.628381] I [socket.c:3308:socket_submit_request]
&gt;&gt; 0-c_glusterfs-client-9: not connected (priv-&gt;connected = 0)
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.628432] W [rpc-clnt.c:1586:rpc_clnt_submit]
&gt;&gt; 0-c_glusterfs-client-9: failed to submit rpc-request (XID: 0x7f5f Program:
&gt;&gt; GlusterFS 3.3, ProgVers: 330, Proc: 30) to rpc-transport
&gt;&gt; (c_glusterfs-client-9)
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.628466] E [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:1673:client3_3_finodelk_cbk] 0-c_glusterfs-client-9:
&gt;&gt; remote operation failed [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.628475] I [MSGID: 108019]
&gt;&gt; [afr-lk-common.c:1086:afr_lock_blocking] 0-c_glusterfs-replicate-0: unable
&gt;&gt; to lock on even one child
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.628539] I [MSGID: 108019]
&gt;&gt; [afr-transaction.c:1224:afr_post_blocking_inodelk_cbk]
&gt;&gt; 0-c_glusterfs-replicate-0: Blocking inodelks failed.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.628630] W [fuse-bridge.c:1282:fuse_err_cbk]
&gt;&gt; 0-glusterfs-fuse: 20790: FLUSH() ERR =&gt; -1 (Transport endpoint is not
&gt;&gt; connected)
&gt;&gt; [2016-10-31 04:06:03.629149] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt;
&gt;&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn-0xb5c80)[0x3fff8ab79f58] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind-0x1b7a0)[0x3fff8ab1dc90] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy-0x1b638)[0x3fff8ab1de10] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup-0x19af8)[0x3fff8ab1fb18]
&gt;&gt; (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify-0x18e68)[0x3fff8ab20808] )))))
&gt;&gt; 0-c_glusterfs-client-9: forced unwinding frame type(GlusterFS 3.3)
&gt;&gt; op(LOOKUP(27)) called at 2016-10-31 04:06:03.624346 (xid=0x7f5a)
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.629183] I [rpc-clnt.c:1847:rpc_clnt_reconfig]
&gt;&gt; 0-c_glusterfs-client-9: changing port to 49391 (from 0)
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.629210] W [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:2971:client3_3_lookup_cbk] 0-c_glusterfs-client-9: remote
&gt;&gt; operation failed. Path:
&gt;&gt; /loadmodules_norepl/CXC1725605_P93A001/cello/emasviews
&gt;&gt; (b0e5a94e-a432-4dce-b86f-a551555780a2) [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.629266] I [socket.c:3308:socket_submit_request]
&gt;&gt; 0-c_glusterfs-client-9: not connected (priv-&gt;connected = 255)
&gt;&gt; [2016-10-31 04:06:03.629277] I [MSGID: 109063]
&gt;&gt; [dht-layout.c:702:dht_layout_normalize] 0-c_glusterfs-dht: Found anomalies
&gt;&gt; in /loadmodules_norepl/CXC1725605_P93A001/cello/emasviews (gfid =
&gt;&gt; b0e5a94e-a432-4dce-b86f-a551555780a2). Holes=1 overlaps=0
&gt;&gt; [2016-10-31 04:06:03.629293] W [rpc-clnt.c:1586:rpc_clnt_submit]
&gt;&gt; 0-c_glusterfs-client-9: failed to submit rpc-request (XID: 0x7f62 Program:
&gt;&gt; GlusterFS 3.3, ProgVers: 330, Proc: 41) to rpc-transport
&gt;&gt; (c_glusterfs-client-9)
&gt;&gt; [2016-10-31 04:06:03.629333] W [fuse-resolve.c:149:fuse_resolve_gfid_cbk]
&gt;&gt; 0-fuse: b0e5a94e-a432-4dce-b86f-a551555780a2: failed to resolve (Transport
&gt;&gt; endpoint is not connected)
&gt;&gt; [2016-10-31 04:06:03.629363] W [fuse-bridge.c:3385:fuse_getxattr_resume]
&gt;&gt; 0-glusterfs-fuse: 20784: GETXATTR
&gt;&gt; b0e5a94e-a432-4dce-b86f-a551555780a2/70366685109140
&gt;&gt; (system.posix_acl_access) resolution failed
&gt;&gt; [2016-10-31 04:06:03.629729] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt;
&gt;&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn-0xb5c80)[0x3fff8ab79f58] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind-0x1b7a0)[0x3fff8ab1dc90] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy-0x1b638)[0x3fff8ab1de10] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup-0x19af8)[0x3fff8ab1fb18]
&gt;&gt; (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify-0x18e68)[0x3fff8ab20808] )))))
&gt;&gt; 0-c_glusterfs-client-9: forced unwinding frame type(GlusterFS 3.3)
&gt;&gt; op(LOOKUP(27)) called at 2016-10-31 04:06:03.624568 (xid=0x7f5b)
&gt;&gt; [2016-10-31 04:06:03.629779] W [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:2971:client3_3_lookup_cbk] 0-c_glusterfs-client-9: remote
&gt;&gt; operation failed. Path: /pmd/2 (fa866805-ab22-4afe-8acb-528d15ce4117)
&gt;&gt; [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.629784] E [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:2883:client3_3_opendir_cbk] 0-c_glusterfs-client-9:
&gt;&gt; remote operation failed. Path:
&gt;&gt; /loadmodules_norepl/CXC1725605_P93A001/cello/emasviews
&gt;&gt; (b0e5a94e-a432-4dce-b86f-a551555780a2) [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.629836] I [MSGID: 109063]
&gt;&gt; [dht-layout.c:702:dht_layout_normalize] 0-c_glusterfs-dht: Found anomalies
&gt;&gt; in /pmd/2 (gfid = fa866805-ab22-4afe-8acb-528d15ce4117). Holes=1 overlaps=0
&gt;&gt; [2016-10-31 04:06:03.629857] W [fuse-bridge.c:980:fuse_fd_cbk]
&gt;&gt; 0-glusterfs-fuse: 20794: OPENDIR()
&gt;&gt; /loadmodules_norepl/CXC1725605_P93A001/cello/emasviews =&gt; -1 (Transport
&gt;&gt; endpoint is not connected)
&gt;&gt; [2016-10-31 04:06:03.629896] W [fuse-resolve.c:149:fuse_resolve_gfid_cbk]
&gt;&gt; 0-fuse: fa866805-ab22-4afe-8acb-528d15ce4117: failed to resolve (Transport
&gt;&gt; endpoint is not connected)
&gt;&gt; [2016-10-31 04:06:03.629990] E [fuse-bridge.c:787:fuse_getattr_resume]
&gt;&gt; 0-glusterfs-fuse: 20785: GETATTR 70366685017568
&gt;&gt; (fa866805-ab22-4afe-8acb-528d15ce4117) resolution failed
&gt;&gt; [2016-10-31 04:06:03.630164] W [defaults.c:2212:default_releasedir]
&gt;&gt; (--&gt;/usr/lib64/glusterfs/3.7.6/xlator/protocol/client.so(client_local_wipe-0x42d64)
&gt;&gt; [0x3fff86c9bc5c] --&gt;/usr/lib64/libglusterfs.so.0(fd_unref-0x7ba98)
&gt;&gt; [0x3fff8abb7ad0] --&gt;/usr/lib64/libglusterfs.so.0(default_releasedir-0x9d6d8)
&gt;&gt; [0x3fff8ab93c58] ) 0-fuse: xlator does not implement releasedir_cbk
&gt;&gt; [2016-10-31 04:06:03.630367] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt;
&gt;&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn-0xb5c80)[0x3fff8ab79f58] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind-0x1b7a0)[0x3fff8ab1dc90] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy-0x1b638)[0x3fff8ab1de10] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup-0x19af8)[0x3fff8ab1fb18]
&gt;&gt; (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify-0x18e68)[0x3fff8ab20808] )))))
&gt;&gt; 0-c_glusterfs-client-9: forced unwinding frame type(GlusterFS 3.3)
&gt;&gt; op(LOOKUP(27)) called at 2016-10-31 04:06:03.625675 (xid=0x7f5c)
&gt;&gt; [2016-10-31 04:06:03.630368] W [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:1569:client3_3_fstat_cbk] 0-c_glusterfs-client-9: remote
&gt;&gt; operation failed [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.630497] W [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:2971:client3_3_lookup_cbk] 0-c_glusterfs-client-9: remote
&gt;&gt; operation failed. Path: /configuration/oamrdncy.cfg
&gt;&gt; (200b0bb2-d903-4924-b025-262d805c0f2f) [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.630871] I [MSGID: 114057]
&gt;&gt; [client-handshake.c:1437:select_server_supported_programs]
&gt;&gt; 0-c_glusterfs-client-9: Using Program GlusterFS 3.3, Num (1298437), Version
&gt;&gt; (330)
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.631488] I [MSGID: 114046]
&gt;&gt; [client-handshake.c:1213:client_setvolume_cbk] 0-c_glusterfs-client-9:
&gt;&gt; Connected to c_glusterfs-client-9, attached to remote volume
&gt;&gt; '/opt/lvmdir/c2/brick'.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.631523] I [MSGID: 114047]
&gt;&gt; [client-handshake.c:1224:client_setvolume_cbk] 0-c_glusterfs-client-9:
&gt;&gt; Server and Client lk-version numbers are not same, reopening the fds
&gt;&gt; [2016-10-31 04:06:03.631555] I [MSGID: 114042]
&gt;&gt; [client-handshake.c:1056:client_post_handshake] 0-c_glusterfs-client-9: 6
&gt;&gt; fds open - Delaying child_up until they are re-opened
&gt;&gt; [2016-10-31 04:06:03.631475] W [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:2971:client3_3_lookup_cbk] 0-c_glusterfs-client-9: remote
&gt;&gt; operation failed. Path: /configuration/ethmac.cfg
&gt;&gt; (00000000-0000-0000-0000-000000000000) [Transport endpoint is not connected]
&gt;&gt; [2016-10-31 04:06:03.632256] I [MSGID: 114060]
&gt;&gt; [client-handshake.c:820:client3_3_reopendir_cbk] 0-c_glusterfs-client-9:
&gt;&gt; reopendir on &lt;gfid:00000000-0000-0000-0000-000000000001&gt; succeeded (fd = 1)
&gt;&gt; [2016-10-31 04:06:03.632728] I [MSGID: 114060]
&gt;&gt; [client-handshake.c:820:client3_3_reopendir_cbk] 0-c_glusterfs-client-9:
&gt;&gt; reopendir on &lt;gfid:257add5a-9b87-4014-8a3a-09dd0a699eec&gt; succeeded (fd = 2)
&gt;&gt; [2016-10-31 04:06:03.632790] I [MSGID: 114060]
&gt;&gt; [client-handshake.c:820:client3_3_reopendir_cbk] 0-c_glusterfs-client-9:
&gt;&gt; reopendir on &lt;gfid:6fd47fe9-a566-47c7-8df7-e7a5e379101f&gt; succeeded (fd = 3)
&gt;&gt; [2016-10-31 04:06:03.632847] I [MSGID: 114060]
&gt;&gt; [client-handshake.c:820:client3_3_reopendir_cbk] 0-c_glusterfs-client-9:
&gt;&gt; reopendir on &lt;gfid:fa866805-ab22-4afe-8acb-528d15ce4117&gt; succeeded (fd = 4)
&gt;&gt; [2016-10-31 04:06:03.632905] I [MSGID: 114060]
&gt;&gt; [client-handshake.c:820:client3_3_reopendir_cbk] 0-c_glusterfs-client-9:
&gt;&gt; reopendir on &lt;gfid:139f5034-5b42-4fb8-9372-6dd7cac1e674&gt; succeeded (fd = 5)
&gt;&gt; [2016-10-31 04:06:03.632935] I [MSGID: 114041]
&gt;&gt; [client-handshake.c:678:client_child_up_reopen_done] 0-c_glusterfs-client-9:
&gt;&gt; last fd open'd/lock-self-heal'd - notifying CHILD-UP
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.633028] I [MSGID: 108005]
&gt;&gt; [afr-common.c:3841:afr_notify] 0-c_glusterfs-replicate-0: Subvolume
&gt;&gt; 'c_glusterfs-client-9' came back up; going online.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.633386] I [MSGID: 114035]
&gt;&gt; [client-handshake.c:193:client_set_lk_version_cbk] 0-c_glusterfs-client-9:
&gt;&gt; Server lk version = 1
&gt;&gt; [2016-10-31 04:06:03.634579] W [fuse-bridge.c:758:fuse_attr_cbk]
&gt;&gt; 0-glusterfs-fuse: 20795: FSTAT() /configuration/oamrdncy.cfg =&gt; -1
&gt;&gt; (Transport endpoint is not connected)
&gt;&gt; [2016-10-31 04:06:03.634889] E [rpc-clnt.c:362:saved_frames_unwind] (--&gt;
&gt;&gt; /usr/lib64/libglusterfs.so.0(_gf_log_callingfn-0xb5c80)[0x3fff8ab79f58] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_unwind-0x1b7a0)[0x3fff8ab1dc90] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(saved_frames_destroy-0x1b638)[0x3fff8ab1de10] (--&gt;
&gt;&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_connection_cleanup-0x19af8)[0x3fff8ab1fb18]
&gt;&gt; (--&gt; /usr/lib64/libgfrpc.so.0(rpc_clnt_notify-0x18e68)[0x3fff8ab20808] )))))
&gt;&gt; 0-c_glusterfs-client-9: forced unwinding frame type(GlusterFS 3.3)
&gt;&gt; op(XATTROP(33)) called at 2016-10-31 04:06:03.625716 (xid=0x7f5d)
&gt;&gt; [2016-10-31 04:06:03.634950] W [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:1845:client3_3_xattrop_cbk] 0-c_glusterfs-client-9:
&gt;&gt; remote operation failed. Path: /configuration/oamrdncy.cfg
&gt;&gt; (200b0bb2-d903-4924-b025-262d805c0f2f)
&gt;&gt; [2016-10-31 04:06:03.635134] W [MSGID: 108008]
&gt;&gt; [afr-read-txn.c:250:afr_read_txn] 0-c_glusterfs-replicate-0: Unreadable
&gt;&gt; subvolume -1 found with event generation 3 for gfid
&gt;&gt; 200b0bb2-d903-4924-b025-262d805c0f2f. (Possible split-brain)
&gt;&gt; [2016-10-31 04:06:03.635364] I [MSGID: 114018]
&gt;&gt; [client.c:2042:client_rpc_notify] 0-c_glusterfs-client-9: disconnected from
&gt;&gt; c_glusterfs-client-9. Client process will keep trying to connect to glusterd
&gt;&gt; until brick's port is available
&gt;&gt; [2016-10-31 04:06:03.635420] E [MSGID: 108006]
&gt;&gt; [afr-common.c:3880:afr_notify] 0-c_glusterfs-replicate-0: All subvolumes are
&gt;&gt; down. Going offline until atleast one of them comes back up.
&gt;&gt; [2016-10-31 04:06:03.635762] I [MSGID: 108006]
&gt;&gt; [afr-common.c:4008:afr_local_init] 0-c_glusterfs-replicate-0: no subvolumes
&gt;&gt; up
&gt;&gt; [2016-10-31 04:06:03.641160] W [fuse-bridge.c:462:fuse_entry_cbk]
&gt;&gt; 0-glusterfs-fuse: 20808: LOOKUP() /license =&gt; -1 (Transport endpoint is not
&gt;&gt; connected)
&gt;&gt; The message "I [MSGID: 108006] [afr-common.c:4008:afr_local_init]
&gt;&gt; 0-c_glusterfs-replicate-0: no subvolumes up" repeated 6 times between
&gt;&gt; [2016-10-31 04:06:03.640564] and [2016-10-31 04:06:03.641444]
&gt;&gt; [2016-10-31 04:06:03.641484] E [MSGID: 114031]
&gt;&gt; [client-rpc-fops.c:1621:client3_3_inodelk_cbk] 0-c_glusterfs-client-9:
&gt;&gt; remote operation failed [Invalid argument]
&gt;&gt; [2016-10-31 04:06:03.641562] I [MSGID: 108006]
&gt;&gt; [afr-common.c:4008:afr_local_init] 0-c_glusterfs-replicate-0: no subvolumes
&gt;&gt; up
&gt;&gt; [2016-10-31 04:06:03.641573] E [MSGID: 108010]
&gt;&gt; [afr-lk-common.c:665:afr_unlock_inodelk_cbk] 0-c_glusterfs-replicate-0:
&gt;&gt; path=/configuration/oamrdncy.cfg gfid=200b0bb2-d903-4924-b025-262d805c0f2f:
&gt;&gt; unlock failed on subvolume c_glusterfs-client-9 with lock owner
&gt;&gt; 6cd0c189ff3f0000 [Invalid argument]
&gt;&gt; [2016-10-31 04:06:03.641655] I [MSGID: 108006]
&gt;&gt; [afr-common.c:4008:afr_local_init] 0-c_glusterfs-replicate-0: no subvolumes
&gt;&gt; up
&gt;&gt; [2016-10-31 04:06:03.641716] W [fuse-bridge.c:462:fuse_entry_cbk]
&gt;&gt; 0-glusterfs-fuse: 20809: LOOKUP() /lost+found =&gt; -1 (Transport endpoint is
&gt;&gt; not connected)
&gt;&gt; [2016-10-31 04:06:03.642387] W [fuse-bridge.c:462:fuse_entry_cbk]
&gt;&gt; 0-glusterfs-fuse: 20813: LOOKUP() /lost+found =&gt; -1 (Transport endpoint is
&gt;&gt; not connected)
&gt;&gt; ...
&gt;&gt;
&gt;&gt; Analysis
&gt;&gt;
&gt;&gt; I think the disconnection and reconnectiong between client(glusterfs on A
&gt;&gt; board) and server(glusterfsd on A board) has a race condition as below.
&gt;&gt;
&gt;&gt;
&gt;&gt; process 1
&gt;&gt; process 2
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.626047]                                        readv
&gt;&gt; err show that
&gt;&gt;
&gt;&gt; the disconnect happen
&gt;&gt;
&gt;&gt; between client and server.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.627345]                                        It will
&gt;&gt; call rpc_clnt_notify().
&gt;&gt;
&gt;&gt; conn-&gt;connected = 0 in
&gt;&gt;
&gt;&gt; rpc_clnt_connection_cleanup.
&gt;&gt;
&gt;&gt; Creating a timer which will
&gt;&gt;
&gt;&gt; reconnect after 10 second.
&gt;&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.628381]
&gt;&gt; calling rpc_clnt_submit().
&gt;&gt;
&gt;&gt; it will call rpc_transport_connect
&gt;&gt;
&gt;&gt; because conn-&gt;connected is 0.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.631488]
&gt;&gt; the new connection has been successful.
&gt;&gt;
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.633028]
&gt;&gt; calling  afr_notify(). In the case
&gt;&gt;
&gt;&gt; GF_EVENT_CHILD_UP  the new
&gt;&gt;
&gt;&gt; new connection is set by "priv-&gt;child_up[idx] = 1"
&gt;&gt;
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.635364]                                      continue
&gt;&gt; to run client_rpc_notify()
&gt;&gt;
&gt;&gt; will notify RPC_CLNT_DISCONNECT
&gt;&gt;
&gt;&gt; in case RPC_CLNT_DISCONNECT.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.635420]                                      In
&gt;&gt; afr_notify() will set "priv-&gt;child_up[idx] = 0"£¬
&gt;&gt;
&gt;&gt; which is the new connection,
&gt;&gt;
&gt;&gt; in the case RPC_CLNT_DISCONNECT.
&gt;&gt;
&gt;&gt; And the all the subvolume is down.
&gt;&gt;
&gt;&gt; [2016-10-31 04:06:03.635762]                                       All the
&gt;&gt; access will be failed because
&gt;&gt;
&gt;&gt; no subvolumes up.And rpc_transport_connect()
&gt;&gt;
&gt;&gt; will not be called  because the conn-&gt;connected
&gt;&gt;
&gt;&gt; has been set to 1 in process  2
&gt;&gt;
&gt;&gt;
&gt;&gt; Please help me to check my analysis.
&gt;&gt;
&gt;&gt; Thanks,
&gt;&gt; Xin
&gt;&gt;
&gt;
&gt;Awesome! You root caused this on your own. This exact same issue was
&gt;root caused recently and we have a pending patch for it [1]. Expect
&gt;this to be fixed soon.
&gt;
&gt;[1]: https://review.gluster.org/15916
&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt;
&gt;&gt; _______________________________________________
&gt;&gt; Gluster-users mailing list
&gt;&gt; Gluster-users@gluster.org
&gt;&gt; http://www.gluster.org/mailman/listinfo/gluster-users
</pre></div><br><br><span title="neteasefooter"><p>&nbsp;</p></span>