<div dir="ltr"><div>Hi,</div><div>Thank you so much for answer.</div><div>Ok. <br></div><div>
 <i>MPI applications would be to be aware<br>
of the communication that is going on and try to restore that<br>
communication state after the process restore. <br></i></div><div><i><br></i></div><div>This is about MPI library <a href="https://www.open-mpi.org/">https://www.open-mpi.org/</a><i><br></i></div><div>1) Running HPC applications, in containers, is gaining significant interest due to lighweight virtualisation of containers versus VMs (as i know). <i><br></i></div><div><i><br></i></div><div>And, what about web applications (web client - Mysql server application in a container lxc- Tomcat web server in a container )? There is a communication also. <br></div><div>2) If i would like to save snapshots using criu of this application, therefore i have 
to restore that communication state after the process restore ?<br></div><div>3) I ask also if checkpoint/restore is useful for this kind of application ?</div><div><br></div><div><br></div><div>Kind regards.</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">2018-06-23 11:35 GMT+01:00 Adrian Reber <span dir="ltr">&lt;<a href="mailto:adrian@lisas.de" target="_blank">adrian@lisas.de</a>&gt;</span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Sat, Jun 23, 2018 at 10:19:13AM +0100, Thouraya TH wrote:<br>
&gt; Please, i have a question about tightly coupled applications and their<br>
&gt; checkpoint<br>
&gt; <a href="https://dl.acm.org/citation.cfm?id=568525" rel="noreferrer" target="_blank">https://dl.acm.org/citation.<wbr>cfm?id=568525</a><br>
&gt; <br>
&gt; As i know, for this kind of application , i have to record to state of the<br>
&gt; communication channel and the state of each process.<br>
&gt; Following a failure, i have to find the the coherent state to restart<br>
&gt; (coordinated protocol or no coordinated protocol).<br>
&gt; <br>
&gt; Is there, already, a solution you have proposed to acheive that ?<br>
<br>
</span>No, there is nothing I know of. The whole MPI/HPC part of<br>
checkpoint/restore with CRIU has not seen much development in the last<br>
years.<br>
<br>
One way to use CRIU in distributed MPI applications would be to be aware<br>
of the communication that is going on and try to restore that<br>
communication state after the process restore.<br>
<br>
Another way to use CRIU in MPI applications is to make sure that all<br>
communication has been quiesced before the actual checkpoint/restore.<br>
This probably does not work for fault tolerance.<br>
<span class="HOEnZb"><font color="#888888"><br>
                Adrian<br>
</font></span></blockquote></div><br></div>