<div dir="ltr"><div>Hi,</div><div><br></div><div>I&#39;m using CRIU with Docker using the Docker fork <a href="https://github.com/boucher/docker.git">https://github.com/boucher/docker.git</a>.</div><div><br></div><div>Sometimes my attempts to restore a container fail and when I look in the criu logs I see something like the following error (full restore log available here: <a href="https://gist.github.com/southerngs/34d3ce928f35e24e3dbb">https://gist.github.com/southerngs/34d3ce928f35e24e3dbb</a>)</div><div><br></div><div><div>(00.401627)      1: Restoring resources</div><div>(00.401633)     22: <span class="" style="white-space:pre">        </span>Restoring fd 0 (state -&gt; prepare)</div><div>(00.401644)     22: <span class="" style="white-space:pre">                </span>Create transport fd /crtools-fd-22-0</div><div>(00.401644)      1: Opening fdinfo-s</div><div>(00.401652)      1: <span class="" style="white-space:pre">        </span>Restoring fd 0 (state -&gt; prepare)</div><div>(00.401655)      1: <span class="" style="white-space:pre">        </span>Restoring fd 1 (state -&gt; prepare)</div><div>(00.401658)      1: <span class="" style="white-space:pre">        </span>Restoring fd 2 (state -&gt; prepare)</div><div>(00.401660)      1: <span class="" style="white-space:pre">        </span>Restoring fd 0 (state -&gt; create)</div><div>(00.401663)     22: Error (files.c:840): Can&#39;t bind unix socket /crtools-fd-22-0: Address already in use</div><div>(00.401684)      1: <span class="" style="white-space:pre">                </span>Create fd for 0</div><div>(00.401687)      1: <span class="" style="white-space:pre">                </span>Wait fdinfo pid=22 fd=0</div><div>(00.403238)      1: Error (cr-restore.c:1302): 22 exited, status=1</div><div>(00.459682) Error (cr-restore.c:1304): 6804 killed by signal 9</div><div>(00.526451) Error (cr-restore.c:2130): Restoring FAILED.</div></div><div><br></div><div>This error is not completely deterministic.  Usually if the restore attempt fails if I wait and retry the command then it will succeed the second time.  The problem only occurs when there is a lot of checkpoint/restore activity going on.  But my use case involves restoring a lot of containers simultaneously and letting them run for a short period of time.  I might be able to work around this problem by catching an error during a failed restore and then retrying.  But if I could reduce the number of failed restore attempts that would be helpful for me.</div><div><br></div><div><div>I&#39;m working with criu from the github master branch.  I produced the error with version: </div><div>Version: 2.0<br></div><div>GitID: v1.8-413-g2fd16c3</div></div><div><br></div><div>Unfortunately I don&#39;t know criu works well enough to have good troubleshooting ideas just from looking at this log.  So I thought I&#39;d ask here to see if there are any suggestions so I can understand the root cause and what I might be able to change to prevent it.  Any advice is appreciated.</div><div><br></div><div>Thanks,</div><div><br></div><div>-Gabriel<br></div><div><br></div></div>