<div>Actually we are using XFS for the bricks. Still haven't made any progress on this issue, unfortunately..</div>
<div>&nbsp;</div>
<blockquote class="threadBlockQuote" style="border-left: 2px solid #C2C2C2; padding-left: 3px; margin-left: 4px;">--------- Original Message ---------
<div>Subject: Re: [Gluster-users] Hundreds of duplicate files<br />From: "Anders Blomdell" &lt;anders.blomdell@control.lth.se&gt;<br />Date: 12/21/14 7:42 pm<br />To: tbenzvi@3vgeomatics.com, gluster-users@gluster.org<br /><br /><br /> <br /> On 21 December 2014 06:37:44 CET, tbenzvi@3vgeomatics.com wrote:<br /> &gt;Hi Joe,<br /> &gt; <br /> &gt;Thanks for the reply. That worked; I probably forgot to do this as root<br /> &gt;last time. Yet, the files still show up twice in a directory listing on<br /> &gt;the mounted volume. And it seems to be random whether reading the file<br /> &gt;will succeed or not. I've tried with several files and it sometimes<br /> &gt;works and sometimes fails; I assume this depends on whether it locates<br /> &gt;the actual file on the brick or the link file. Let me know if you have<br /> &gt;any idea what's going on.<br /> Does the brick filesystem happen to be ext4? I havs hed the similar problem with 3.6.x and <br /> ext4 (64 bit offset problem). <br /> <br /> &gt; <br /> &gt;Output of the command:<br /> &gt; <br /> &gt;$ getfattr -m . -d -e hex<br /> &gt;/data/glusterfs/safari/brick01/brick/rsc/tsx/montreal_smaller/sm_asc/stack/slc/20130210.slc.ras<br /> &gt;getfattr: Removing leading '/' from absolute path names<br /> &gt;# file:<br /> &gt;data/glusterfs/safari/brick01/brick/rsc/tsx/montreal_smaller/sm_asc/stack/slc/20130210.slc.ras<br /> &gt;system.posix_acl_access=0x0200000001000600ffffffff04000600ffffffff10000600ffffffff20000400ffffffff<br /> &gt;trusted.SGI_ACL_FILE=0x0000000400000001ffffffff0006000000000004ffffffff0006000000000010ffffffff0006000000000020ffffffff00040000<br /> &gt;trusted.gfid=0x52c2aed77d09412d8bfd7ca70e87b196<br /> &gt;trusted.glusterfs.dht.linkto=0x7361666172692d636c69656e742d3200<br /> &gt; <br /> &gt; <br /> &gt;Cheers,<br /> &gt;Tom<br /> &gt; <br /> &gt;--------- Original Message --------- Subject: Re: [Gluster-users]<br /> &gt;Hundreds of duplicate files<br /> &gt;From: "Joe Julian" &lt;joe@julianfamily.org&gt;<br /> &gt;Date: 12/20/14 8:53 pm<br /> &gt;To: gluster-users@gluster.org<br /> &gt;<br /> &gt;Try 'getfattr -m . -d -e hex' (dot instead of dash) and, of course, do<br /> &gt;that as root.<br /> &gt; <br /> &gt; On 12/20/2014 06:02 PM, tbenzvi@3vgeomatics.com wrote:<br /> &gt; Hi everyone,<br /> &gt; <br /> &gt;We have a distributed Gluster volume on five bricks over two servers<br /> &gt;(first server running gluster 3.4.2, second server running gluster<br /> &gt;3.5.1, both running Fedora 20)<br /> &gt;Starting last week, doing a file listing on the mounted volume shows<br /> &gt;many files with the same name appearing twice (and they are listed with<br /> &gt;the same inode). Doing a search for these files, I have found 290,000<br /> &gt;of them!!<br /> &gt; <br /> &gt;If I do a listing of these files on the bricks themselves, it looks<br /> &gt;like most are link files (du will show the file on the first server as<br /> &gt;0 bytes, and the sticky bit set). The file is fine on the second<br /> &gt;server. Unfortunately, running "getfattr -m - -e hex -d" on the file<br /> &gt;shows NO gluster-related attributes and I believe this is why both<br /> &gt;files appear in the listing. The files cannot be read by any programs<br /> &gt;as it is trying to read the link file. I assume the metadata became<br /> &gt;corrupted. This is a production server so we really need to know:<br /> &gt; <br /> &gt;1. How did this happen, and how can we prevent it going forward? There<br /> &gt;was a server crash a week ago and I believe that was the cause.<br /> &gt;2. How can we heal the Gluster volume/bricks and link files. If there<br /> &gt;is some straightforward way of restoring the link file pointer I can<br /> &gt;write a script to do it, obviously doing this manually will be<br /> &gt;impossible.<br /> &gt; <br /> &gt;Thanks very much for any and all help - much appreciated!<br /> &gt; <br /> &gt;Regards,<br /> &gt;Tom<br /> &gt; <br /> &gt; <br /> &gt;On Wed, Dec 17, 2014 at 4:07 AM, &lt;tbenzvi@3vgeomatics.com&gt; wrote:<br /> &gt;&gt; Hi everyone, we have noticed some extremely odd behaviour with our<br /> &gt; &gt; distributed Gluster volume where duplicate files (same name, same or<br /> &gt;&gt; different content) are being created and stored on multiple bricks.<br /> &gt;The only<br /> &gt;&gt; consistent clue is that one of the duplicate files has the sticky bit<br /> &gt;set. I<br /> &gt;&gt; am hoping someone will be able to shed some light on why this is<br /> &gt;happening<br /> &gt;&gt; and how we can restore the volume as there appear to be hundreds of<br /> &gt;such<br /> &gt; &gt; files. I will try to provide as much pertinent information as I can.<br /> &gt; &gt;<br /> &gt;&gt; We have a 130TB Gluster volume consisting of two 20TB bricks on<br /> &gt;server1, and<br /> &gt; &gt; three 40TB bricks on a server2 which were added at a later date (and<br /> &gt;&gt; rebalancing was done). The volume is mounted on server1, and accessed<br /> &gt;only<br /> &gt;&gt; through this server but by many users. Both servers went down due to<br /> &gt;power<br /> &gt;&gt; loss several days ago after which this problem was first noticed. We<br /> &gt;ran a<br /> &gt; &gt; rebalance command on the volumes, this has not fixed the problem.<br /> &gt; &gt;<br /> &gt; &gt;<br /> &gt; &gt; Gluster volume info:<br /> &gt; &gt; Volume Name: safari<br /> &gt; &gt; Type: Distribute<br /> &gt; &gt; Volume ID: d48d0e6b-4389-4c2c-8fd1-cd2854121eda<br /> &gt; &gt; Status: Started<br /> &gt; &gt; Number of Bricks: 5<br /> &gt; &gt; Transport-type: tcp<br /> &gt; &gt; Bricks:<br /> &gt; &gt; Brick1: server1:/data/glusterfs/safari/brick00/brick<br /> &gt; &gt; Brick2: server1:/data/glusterfs/safari/brick01/brick<br /> &gt; &gt; Brick3: server2:/data/glusterfs/safari/brick02/brick<br /> &gt; &gt; Brick4: server2:/data/glusterfs/safari/brick03/brick<br /> &gt; &gt; Brick5: server2:/data/glusterfs/safari/brick04/brick<br /> &gt; &gt;<br /> &gt; &gt;<br /> &gt; &gt; Size information:<br /> &gt; &gt; /dev/sdc 37T 16T 22T 42% /data/glusterfs/safari/brick02<br /> &gt; &gt; /dev/sdd 37T 16T 22T 42% /data/glusterfs/safari/brick03<br /> &gt; &gt; /dev/sde 37T 17T 21T 45% /data/glusterfs/safari/brick04<br /> &gt; &gt; /dev/md126 11T 7.7T 2.8T 74% /data/glusterfs/safari/brick00<br /> &gt; &gt; /dev/md124 11T 8.0T 2.5T 77% /data/glusterfs/safari/brick01<br /> &gt; &gt; server2:/safari 130T 63T 68T 48% /sar<br /> &gt; &gt;<br /> &gt; &gt;<br /> &gt; &gt; Example 1:<br /> &gt; &gt; -Two files with the same name exist in one directory<br /> &gt; &gt; -They have different contents and attributes<br /> &gt; &gt; -A file listing on the mounted volume shows the same inode<br /> &gt; &gt; -The newer file has sticky bit set<br /> &gt;&gt; -Neither file is corrupted, they can both be viewed by using the<br /> &gt;absolute<br /> &gt; &gt; path (on the bricks)<br /> &gt; &gt;<br /> &gt; &gt; File listing on the mounted volume<br /> &gt;&gt; 13036730497538635177 -rw-rw-r-T 1 jon users 924 Dec 15 10:42 RSLC_tab<br /> &gt; &gt; 13036730497538635177 -rw-rw-r-- 1 jon users 418 Mar 18 2013 RSLC_tab<br /> &gt; &gt;<br /> &gt; &gt; Listing of the files on the bricks:<br /> &gt; &gt; 8925798411 -rw-rw-r-T+ 2 jon users 924 Dec 15 10:42<br /> &gt;&gt;<br /> &gt;/data/glusterfs/safari/brick00/brick/complete/shm/rs2/ottawa/mf6_asc/stack_org/RSLC_tab<br /> &gt; &gt; 51541886672 -rw-rw-r--+ 2 1002 users 418 Mar 18 2013<br /> &gt;&gt;<br /> &gt;/data/glusterfs/safari/brick02/brick/complete/shm/rs2/ottawa/mf6_asc/stack_org/RSLC_tab<br /> &gt; &gt;<br /> &gt; &gt;<br /> &gt; &gt; Example 2:<br /> &gt; &gt; -Two files with the same name exist in one directory<br /> &gt; &gt; -They have the same content and attributes<br /> &gt;&gt; -No sticky bit is set when looking at file listing on the mounted<br /> &gt;volume<br /> &gt;&gt; -Sticky bit is set for one while when looking at file listing on the<br /> &gt;bricks<br /> &gt; &gt; -Files are corrupted<br /> &gt; &gt;<br /> &gt; &gt; File listing on the mounted volume:<br /> &gt; &gt; 13012555852904096080 -rw-rw-r-- 1 tom users 2393848 Dec 8 2013<br /> &gt; &gt; ifg_lr/20130226_20130813.diff.phi.ras<br /> &gt; &gt; 13012555852904096080 -rw-rw-r-- 1 tom users 2393848 Dec 8 2013<br /> &gt; &gt; ifg_lr/20130226_20130813.diff.phi.ras<br /> &gt; &gt;<br /> &gt; &gt; Listing of the files on the bricks:<br /> &gt; &gt; 17058578 -rw-rw-r-T+ 2 tom users 2393848 Dec 13 17:11<br /> &gt;&gt;<br /> &gt;/data/glusterfs/safari/brick00/brick/rsc/rs2/calgary/u22_dsc/stack_org/ifg_lr/20130226_20130813.diff.phi.ras<br /> &gt; &gt; 57986922129 -rw-rw-r--+ 2 1010 users 2393848 Dec 8 2013<br /> &gt;&gt;<br /> &gt;/data/glusterfs/safari/brick02/brick/rsc/rs2/calgary/u22_dsc/stack_org/ifg_lr/20130226_20130813.diff.phi.ras<br /> &gt; &gt;<br /> &gt; &gt;<br /> &gt; &gt; Additionally, only some files in this directory are duplicated. The<br /> &gt;&gt; duplicated files are corrupted (can not be viewed as Raster images:<br /> &gt;the<br /> &gt; &gt; original file type)<br /> &gt; &gt; The files which are not duplicated are not corrupted.<br /> &gt; &gt;<br /> &gt; &gt; File command: (notice duplicate and singleton files)<br /> &gt;&gt; ifg_lr/20091021_20100218.diff.phi.ras: Sun raster image data, 1208 x<br /> &gt;1981,<br /> &gt; &gt; 8-bit, RGB colormap<br /> &gt; &gt; ifg_lr/20091021_20101016.diff.phi.ras: data<br /> &gt; &gt; ifg_lr/20091021_20101016.diff.phi.ras: data<br /> &gt;&gt; ifg_lr/20091021_20101109.diff.phi.ras: Sun raster image data, 1208 x<br /> &gt;1981,<br /> &gt; &gt; 8-bit, RGB colormap<br /> &gt;&gt; ifg_lr/20091021_20101203.diff.phi.ras: Sun raster image data, 1208 x<br /> &gt;1981,<br /> &gt; &gt; 8-bit, RGB colormap<br /> &gt;&gt; ifg_lr/20091021_20101227.diff.phi.ras: Sun raster image data, 1208 x<br /> &gt;1981,<br /> &gt; &gt; 8-bit, RGB colormap<br /> &gt;&gt; ifg_lr/20091021_20110120.diff.phi.ras: Sun raster image data, 1208 x<br /> &gt;1981,<br /> &gt; &gt; 8-bit, RGB colormap<br /> &gt; &gt; ifg_lr/20091021_20110213.diff.phi.ras: data<br /> &gt; &gt; ifg_lr/20091021_20110213.diff.phi.ras: data<br /> &gt; &gt; ifg_lr/20091021_20110309.diff.phi.ras: data<br /> &gt; &gt; ifg_lr/20091021_20110309.diff.phi.ras: sticky data<br /> &gt;&gt; ifg_lr/20091021_20110402.diff.phi.ras: Sun raster image data, 1208 x<br /> &gt;1981,<br /> &gt; &gt; 8-bit, RGB colormap<br /> &gt;<br /> &gt;<br /> &gt;<br /> &gt; _______________________________________________<br /> &gt; Gluster-users mailing list<br /> &gt; Gluster-users@gluster.org<br /> &gt; http://www.gluster.org/mailman/listinfo/gluster-users <br /> &gt;_______________________________________________ Gluster-users mailing<br /> &gt;list Gluster-users@gluster.org<br /> &gt;http://www.gluster.org/mailman/listinfo/gluster-users<br /> &gt;<br /> &gt;<br /> &gt;------------------------------------------------------------------------<br /> &gt;<br /> &gt;_______________________________________________<br /> &gt;Gluster-users mailing list<br /> &gt;Gluster-users@gluster.org<br /> &gt;http://www.gluster.org/mailman/listinfo/gluster-users<br /> <br /> -- <br /> Sent from my Android device with K-9 Mail. Please excuse my brevity.</div>
</blockquote>