<br>Stefan and All,<br><br>Happy New Year!<br><br>Stefan, the issue is not due to NFS. I tried to use local disk for vm image template (when new VM is provisioned, it is copied from a local directory). It seems all big disk I/O at the hosts will trigger VM's network timeout.<br>
<br>However, ping or ssh the timeout VM shows not big lag....<br><br>If I raise the timeout, it will make the whole heartbeat thing no use. I need to run a high frequency heartbeat, while keeping it from any timeout triggered by disk I/O<br>
<br>BR,<br>DuDu<br><br><div class="gmail_quote">On Sat, Dec 25, 2010 at 5:30 PM, Stefan P <span dir="ltr"><<a href="mailto:deubeulyou@gmail.com">deubeulyou@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div><div class="h5">On Saturday, December 25, 2010, DuDu <<a href="mailto:blackass@gmail.com">blackass@gmail.com</a>> wrote:<br>
> Hi,t<br>
><br>
> I knew my issue sounds weird, and I'm not sure it is opennebula's fault. But the problem is really annoying, so can anyone shed some light?<br>
> I've a opennebula cluster deployed and running, with local disk. When a new VM gets provisioned, the disk template is copied from a NFS to the host's local disk. I've two VMs running on two hosts. These VMs have some heartbeat connection between them, for HA. However when a third VM is provision on one host (during the disk image copy process), the heartbeat connection is timeout (socket returns "Broken Pipe"). So the failover is triggered....(obviously it is NOT correct).<br>

><br>
> CPU usage during the copying, and it was around 17%, which is not high. Ping the host didn't show significant lag. I don't really understand why the host's disk I/O triggers the VM's network problem, do you?<br>

><br>
<br>
</div></div>It sounds plausible anyway - with nfs you involve the network too, and<br>
copying big files can bring hell in scheduling latencies...<br>
<br>
What hypervisor do you use ? If you ping the vms themselves during<br>
provisionning, do you see latency ? What about ssh interactiveness on<br>
the host and vms ?<br>
<br>
In parallel, I'd start by raising heartbeat's timeout to big values<br>
(ie timeout > time to copy a vm), just to confirm what's happening.<br>
<br>
<br>
> BR<br>
><br>
><br>
><br>
<font color="#888888"><br>
--<br>
*Stefan Praszalowicz*<br>
*<br>
*<br>
</font></blockquote></div><br>