<div dir="ltr">HI Deepak,<div><br></div><div>Please find below details.</div><div><br></div><div>* cat  multipath.conf<br></div><div><br></div><div><div>multipath {</div><div><span class="" style="white-space:pre">                </span>uid 162</div><div><span class="" style="white-space:pre">                </span>gid 162</div><div><span class="" style="white-space:pre">                </span>wwid &quot;360050763008084b07800000000000008&quot;</div><div><span class="" style="white-space:pre">                </span>mode 0777</div><div><span class="" style="white-space:pre">                </span>alias nova</div><div><span class="" style="white-space:pre">        </span>}</div></div><div><br></div><div>*  ls -l /dev/mapper/</div><div><br></div><div>  nova -&gt; ../dm-0</div><div><br></div><div>*df -h</div><div> </div><div>/dev/mapper/nova      120T  4.1T  116T   4% /gluster1</div><div><br></div><div>* ls /gluster1/nova/</div><div><br></div><div>brick0  brick1  brick2  brick3</div><div><br></div><div><br></div><div><br></div><div>* Status of volume: nova</div><div>Gluster process<span class="" style="white-space:pre">                                                </span>Port<span class="" style="white-space:pre">        </span>Online<span class="" style="white-space:pre">        </span>Pid</div><div>------------------------------------------------------------------------------</div><div>Brick lkcontroller:/gluster1/nova/brick0<span class="" style="white-space:pre">                </span>49152<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>3708</div><div>Brick lkcontroller:/gluster1/nova/brick1<span class="" style="white-space:pre">                </span>49153<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>3707</div><div>Brick lkcontroller:/gluster1/nova/brick2<span class="" style="white-space:pre">                </span>49154<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>3716</div><div>Brick lkcontroller:/gluster1/nova/brick3<span class="" style="white-space:pre">                </span>49155<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>3723</div><div>NFS Server on localhost<span class="" style="white-space:pre">                                        </span>2049<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>7444</div><div>Self-heal Daemon on localhost<span class="" style="white-space:pre">                                </span>N/A<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>7445</div><div>NFS Server on lkcompute03<span class="" style="white-space:pre">                                </span>2049<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>18288</div><div>Self-heal Daemon on lkcompute03<span class="" style="white-space:pre">                                </span>N/A<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>18295</div><div>NFS Server on lkcompute01<span class="" style="white-space:pre">                                </span>2049<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>13722</div><div>Self-heal Daemon on lkcompute01<span class="" style="white-space:pre">                                </span>N/A<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>13728</div><div>NFS Server on lkcompute02<span class="" style="white-space:pre">                                </span>2049<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>28264</div><div>Self-heal Daemon on lkcompute02<span class="" style="white-space:pre">                                </span>N/A<span class="" style="white-space:pre">        </span>Y<span class="" style="white-space:pre">        </span>28274</div><div> </div><div><br></div><div>Thank You,</div><div>Chamara.</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Jan 23, 2015 at 10:50 AM, Deepak Shetty <span dir="ltr">&lt;<a href="mailto:dpkshetty@gmail.com" target="_blank">dpkshetty@gmail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div>My gut still says it could be related to the multipath.<br>I never got the answer to whether the bricks are using the multipath&#39;ed devices using mpathXX device or you are direclty using the dm-X device ?<br><br>If dm-X then are you ensuring that you are NOT using 2 dm-X device that map to the same LUN on the backend SAN ?<br>My hunch is that in case you are doing that and xfs&#39;ing the 2 dm-X and using then as separate bricks anything can happen<br><br></div>So trying to remove multipath or even before that stop glusterfs volumes (which should stop glusterfsd process, hence no IO on the xfs bricks) and see if this re-creates<br>Since we are seeing glusterfsd everytime the kernel bug shows up, it may not be a co-incidence but a possibility due to invalud multipath setup<br><br>thanx,<br>deepak<br><br></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Jan 22, 2015 at 12:57 AM, Niels de Vos <span dir="ltr">&lt;<a href="mailto:ndevos@redhat.com" target="_blank">ndevos@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span>On Wed, Jan 21, 2015 at 10:11:20PM +0530, chamara samarakoon wrote:<br>
&gt; HI All,<br>
&gt;<br>
&gt;<br>
&gt; Same error encountered again before trying anything else. So I took screen<br>
&gt; shot  with more details of the incident.<br>
<br>
</span>This shows an XFS error. So it can be a problem with XFS, or something<br>
that contributes to it in the XFS path. I would guess it is caused by an<br>
issue on the disk(s) because there is the mentioning of corruption.<br>
However, it could also be bad RAM, or an other hardware component that<br>
is used to access data from the disks. I suggest you take two<br>
approaches:<br>
<br>
1. run hardware tests - if the error is detected, contact your HW vendor<br>
2. open a support case with the vendor of the OS and check for updates<br>
<br>
Gluster can stress filesystems in ways that are not very common, and<br>
there have been issues found in XFS due to this. Your OS support vendor<br>
should be able to tell you if the latest and related XFS fixes are<br>
included in your kernel.<br>
<br>
HTH,<br>
Niels<br>
<div><div><br>
&gt;<br>
&gt;<br>
&gt; ​<br>
&gt;<br>
&gt; Thank You,<br>
&gt; Chamara<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; On Tue, Jan 20, 2015 at 5:33 PM, chamara samarakoon &lt;<a href="mailto:chthsa123@gmail.com" target="_blank">chthsa123@gmail.com</a>&gt;<br>
&gt; wrote:<br>
&gt;<br>
&gt; &gt; HI All,<br>
&gt; &gt;<br>
&gt; &gt; Thank You for valuable feedback , I will test the suggested solutions, and<br>
&gt; &gt; update the thread.<br>
&gt; &gt;<br>
&gt; &gt; Regards,<br>
&gt; &gt; Chamara<br>
&gt; &gt;<br>
&gt; &gt; On Tue, Jan 20, 2015 at 4:17 PM, Deepak Shetty &lt;<a href="mailto:dpkshetty@gmail.com" target="_blank">dpkshetty@gmail.com</a>&gt;<br>
&gt; &gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt;&gt; In addition, I would also like to add that i do suspect (just my hunch)<br>
&gt; &gt;&gt; that it could be related to multipath.<br>
&gt; &gt;&gt; If you can try without multipath and if it doesn&#39;t re-create, i think<br>
&gt; &gt;&gt; that would be a good data point for kernel/OS vendor to debug further.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; my 2 cents again :)<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; thanx,<br>
&gt; &gt;&gt; deepak<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; On Tue, Jan 20, 2015 at 2:32 PM, Niels de Vos &lt;<a href="mailto:ndevos@redhat.com" target="_blank">ndevos@redhat.com</a>&gt; wrote:<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt;&gt; On Tue, Jan 20, 2015 at 11:55:40AM +0530, Deepak Shetty wrote:<br>
&gt; &gt;&gt;&gt; &gt; What does &quot;Controller&quot; mean, the openstack controller node or somethign<br>
&gt; &gt;&gt;&gt; &gt; else (like HBA ) ?<br>
&gt; &gt;&gt;&gt; &gt; You picture says its SAN but the text says multi-path mount.. SAN would<br>
&gt; &gt;&gt;&gt; &gt; mean block devices, so I am assuming you have redundant block devices<br>
&gt; &gt;&gt;&gt; on<br>
&gt; &gt;&gt;&gt; &gt; the compute host, mkfs&#39;ing it and then creating bricks for gluster ?<br>
&gt; &gt;&gt;&gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; The stack trace looks like you hit a kernel bug and glusterfsd happens<br>
&gt; &gt;&gt;&gt; to<br>
&gt; &gt;&gt;&gt; &gt; be running on the CPU at the time... my 2 cents<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt; That definitely is a kernel issue. You should contact your OS support<br>
&gt; &gt;&gt;&gt; vendor about this.<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt; The bits you copy/pasted are not sufficient to see what caused it. The<br>
&gt; &gt;&gt;&gt; glusterfsd process is just a casualty of the kernel issue, and it is not<br>
&gt; &gt;&gt;&gt; likely this can be fixed in Gluster. I suspect you need a kernel<br>
&gt; &gt;&gt;&gt; patch/update.<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt; Niels<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; thanx,<br>
&gt; &gt;&gt;&gt; &gt; deepak<br>
&gt; &gt;&gt;&gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; On Tue, Jan 20, 2015 at 11:29 AM, chamara samarakoon &lt;<br>
&gt; &gt;&gt;&gt; <a href="mailto:chthsa123@gmail.com" target="_blank">chthsa123@gmail.com</a>&gt;<br>
&gt; &gt;&gt;&gt; &gt; wrote:<br>
&gt; &gt;&gt;&gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; Hi All,<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; We have setup Openstack cloud as below. And the<br>
&gt; &gt;&gt;&gt; &quot;/va/lib/nova/instances&quot;<br>
&gt; &gt;&gt;&gt; &gt; &gt; is a Gluster volume.<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; CentOS - 6.5<br>
&gt; &gt;&gt;&gt; &gt; &gt; Kernel -  2.6.32-431.29.2.el6.x86_64<br>
&gt; &gt;&gt;&gt; &gt; &gt; GlusterFS - glusterfs 3.5.2 built on Jul 31 2014 18:47:54<br>
&gt; &gt;&gt;&gt; &gt; &gt; OpenStack - RDO using Packstack<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; ​<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; Recently Controller node freezes with following error (Which<br>
&gt; &gt;&gt;&gt; required hard<br>
&gt; &gt;&gt;&gt; &gt; &gt; reboot), as a result Gluster volumes on compute node can not reach<br>
&gt; &gt;&gt;&gt; the<br>
&gt; &gt;&gt;&gt; &gt; &gt; controller and due to that all the instances on compute nodes<br>
&gt; &gt;&gt;&gt; become to<br>
&gt; &gt;&gt;&gt; &gt; &gt; read-only status  which causes to restart all instances.<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; *BUG: scheduling while atomic : glusterfsd/42725/0xffffffff*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *BUG: unable to handle kernel paging request at 0000000038a60d0a8*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *IP: [&lt;fffffffff81058e5d&gt;] task_rq_lock+0x4d/0xa0*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *PGD 1065525067 PUD 0*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *Oops: 0000 [#1] SMP*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *last sysfs file :<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; /sys/device/pci0000:80/0000:80:02.0/0000:86:00.0/host2/port-2:0/end_device-2:0/target2:0:0/2:0:0:1/state*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *CPU 0*<br>
&gt; &gt;&gt;&gt; &gt; &gt; *Modules linked in : xtconntrack iptable_filter ip_tables<br>
&gt; &gt;&gt;&gt; ipt_REDIRECT<br>
&gt; &gt;&gt;&gt; &gt; &gt; fuse ipv openvswitch vxlan iptable_mangle *<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; Please advice on above incident , also feedback on the Openstack +<br>
&gt; &gt;&gt;&gt; &gt; &gt; GlusterFS setup is appreciated.<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; Thank You,<br>
&gt; &gt;&gt;&gt; &gt; &gt; Chamara<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt; &gt; &gt; _______________________________________________<br>
&gt; &gt;&gt;&gt; &gt; &gt; Gluster-users mailing list<br>
&gt; &gt;&gt;&gt; &gt; &gt; <a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a><br>
&gt; &gt;&gt;&gt; &gt; &gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" target="_blank">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>
&gt; &gt;&gt;&gt; &gt; &gt;<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt; &gt; _______________________________________________<br>
&gt; &gt;&gt;&gt; &gt; Gluster-users mailing list<br>
&gt; &gt;&gt;&gt; &gt; <a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a><br>
&gt; &gt;&gt;&gt; &gt; <a href="http://www.gluster.org/mailman/listinfo/gluster-users" target="_blank">http://www.gluster.org/mailman/listinfo/gluster-users</a><br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;&gt;<br>
&gt; &gt;&gt;<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt; --<br>
&gt; &gt; chthsa<br>
&gt; &gt;<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; --<br>
&gt; chthsa<br>
<br>
<br>
</div></div></blockquote></div><br></div>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature">chthsa</div>
</div>