<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">
Hi all
<div class=""><br class="">
</div>
<div class="">After expanding our cluster we are facing failures while rebalancing. In my opinion this doesn’t look good, so can anybody maybe explain how these failures could arise, how you can fix them or what the consequences can be?</div>
<div class=""><br class="">
</div>
<div class="">
<div class="">$gluster volume rebalance public status</div>
<div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; Node &nbsp; &nbsp; &nbsp; &nbsp; Rebalanced-files &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;size &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;scanned &nbsp; &nbsp; &nbsp;failures &nbsp; &nbsp; &nbsp; skipped &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; status &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;run time in secs</div>
<div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;--------- &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;----------- &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; ----------- &nbsp; &nbsp; &nbsp; &nbsp;----------- &nbsp; ----------- &nbsp; &nbsp; &nbsp; &nbsp; ----------- &nbsp; &nbsp; &nbsp; &nbsp; ------------ &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; --------------</div>
<div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;localhost &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0Bytes &nbsp; &nbsp; &nbsp; &nbsp; 49496 &nbsp; &nbsp; &nbsp; &nbsp;
<b class="">23464</b> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;3821.00</div>
<div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a href="http://gfs01b-dcg.intnet.be" class="">gfs01b-dcg.intnet.be</a> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0Bytes &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;49496 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;3821.00</div>
<div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a href="http://gfs02a-dcg.intnet.be" class="">gfs02a-dcg.intnet.be</a> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0Bytes &nbsp; &nbsp; &nbsp; &nbsp; 49497 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;3821.00</div>
<div class="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;<a href="http://gfs02b-dcg.intnet.be" class="">gfs02b-dcg.intnet.be</a> &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;0Bytes &nbsp; &nbsp; &nbsp; &nbsp; 49495 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; 0 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;in progress &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;3821.00</div>
</div>
<div class=""><br class="">
</div>
<div class="">
<div class="">After looking in the public-rebalance.log this is one paragraph that shows up. The whole log is filled up with these.</div>
<div class=""><br class="">
</div>
<div class="">[2015-09-15 14:50:58.239554] I [dht-common.c:3309:dht_setxattr] 0-public-dht: fixing the layout of /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355</div>
<div class="">[2015-09-15 14:50:58.239730] I [dht-selfheal.c:960:dht_fix_layout_of_directory] 0-public-dht: subvolume 0 (public-replicate-0): 251980 chunks</div>
<div class="">[2015-09-15 14:50:58.239750] I [dht-selfheal.c:960:dht_fix_layout_of_directory] 0-public-dht: subvolume 1 (public-replicate-1): 251980 chunks</div>
<div class="">[2015-09-15 14:50:58.239759] I [dht-selfheal.c:1065:dht_selfheal_layout_new_directory] 0-public-dht: chunk size = 0xffffffff / 503960 = 0x214a</div>
<div class="">[2015-09-15 14:50:58.239784] I [dht-selfheal.c:1103:dht_selfheal_layout_new_directory] 0-public-dht: assigning range size 0x7ffe51f8 to public-replicate-0</div>
<div class="">[2015-09-15 14:50:58.239791] I [dht-selfheal.c:1103:dht_selfheal_layout_new_directory] 0-public-dht: assigning range size 0x7ffe51f8 to public-replicate-1</div>
<div class="">[2015-09-15 14:50:58.239816] I [MSGID: 109036] [dht-common.c:6296:dht_log_new_layout_for_dir_selfheal] 0-public-dht: Setting layout of /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355 with [Subvol_name: public-replicate-0, Err: -1 , Start:
 0 , Stop: 2147373559 ], [Subvol_name: public-replicate-1, Err: -1 , Start: 2147373560 , Stop: 4294967295 ],</div>
<div class="">[2015-09-15 14:50:58.306701] I [dht-rebalance.c:1405:gf_defrag_migrate_data] 0-public-dht: migrate data called on /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355</div>
<div class="">[2015-09-15 14:50:58.346531] W [client-rpc-fops.c:1090:client3_3_getxattr_cbk] 0-public-client-2: remote operation failed: Permission denied. Path: /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355/1.1 rationale getallen.pdf (ba5220be-a462-4008-ac67-79abb16f4dd9).
 Key: trusted.glusterfs.pathinfo</div>
<div class="">[2015-09-15 14:50:58.354111] W [client-rpc-fops.c:1090:client3_3_getxattr_cbk] 0-public-client-3: remote operation failed: Permission denied. Path: /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355/1.1 rationale getallen.pdf (ba5220be-a462-4008-ac67-79abb16f4dd9).
 Key: trusted.glusterfs.pathinfo</div>
<div class="">[2015-09-15 14:50:58.354166] E [dht-rebalance.c:1576:gf_defrag_migrate_data] 0-public-dht: /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355/1.1 rationale getallen.pdf: failed to get trusted.distribute.linkinfo key - Permission denied</div>
<div class="">[2015-09-15 14:50:58.356191] I [dht-rebalance.c:1649:gf_defrag_migrate_data] 0-public-dht: Migration operation on dir /ka1hasselt/Lqw9pnXKV8ojBzzzsqHyChSU914422947204355 took 0.05 secs</div>
</div>
<div class=""><br class="">
</div>
<div class="">Now the file which is referenced here, <u class="">1.1 rationale getallen.pdf</u>, exists on the hosts referenced by 0-public-client-0 and 0-public-client-1 and not on the hosts referenced by 0-public-client-2 and 0-public-client-3. So another
 question what is the system really trying to do here and is this normal?</div>
<div class=""><br class="">
</div>
<div class="">I really hope somebody could give me a deeper understanding about what is going on here.</div>
<div class=""><br class="">
</div>
<div class="">Thanks in advance.</div>
<div class=""><br class="">
</div>
<div class="">Kind regards</div>
<div class="">Davy</div>
</body>
</html>