"ChildFailedError" fine tuning Video-Llama and Video-ChatGPT

pavana · November 22, 2023, 7:41pm

Hi Everyone,

We have been trying to fine-tune video-based visual language models like Video-ChatGPT and Video-LLaMa on our custom dataset. We are trying to fine-tune them on A6000 machine and we are getting error as shown below. Any insights into resolving this error would be helpful

ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 915992) of binary: /home/pavana/anaconda3/envs/video_chatgpt/bin/python
Traceback (most recent call last):
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/runpy.py”, line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/runpy.py”, line 86, in _run_code
exec(code, run_globals)
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/site-packages/torch/distributed/run.py”, line 798, in
main()
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/site-packages/torch/distributed/elastic/multiprocessing/errors/init.py”, line 346, in wrapper
return f(*args, **kwargs)
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/site-packages/torch/distributed/run.py”, line 794, in main
run(args)
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/site-packages/torch/distributed/run.py”, line 785, in run
elastic_launch(
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/site-packages/torch/distributed/launcher/api.py”, line 134, in call
return launch_agent(self._config, self._entrypoint, list(args))
File “/home/pavana/anaconda3/envs/video_chatgpt/lib/python3.10/site-packages/torch/distributed/launcher/api.py”, line 250, in launch_agent
raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

/home/pavana/Video-ChatGPT/video_chatgpt/train/train_mem.py FAILED

Failures:
<NO_OTHER_FAILURES>

Root Cause (first observed failure):
[0]:
time : 2023-10-25_09:51:53
host : cis-a6000
rank : 0 (local_rank: 0)
exitcode : 1 (pid: 915992)
error_file: <N/A>
traceback : To enable traceback see: Error Propagation — PyTorch 2.1 documentation

markd · November 27, 2023, 3:26pm

The simple answer is you are running distrubuted, and parent process is telling you that one of the child processes failed. It is not clear for which reason, but it could be:

In sufficient resources for the child process (GPU, GPU memory, CPU, memory)
Perhaps if this is a remote host it could be different python script, data, libraries, etc. If this is distributed across nodes. (or the Anaconda environment you are running on for the ‘parent process’)

It is mentioned in with similar issues:

github.com/Vision-CAIR/MiniGPT-4

torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

opened 08:42AM - 19 May 23 UTC

chengjiaxiangbytedance

when i run this command: `torchrun --nproc-per-node 1 --master_port 25641 train….py --cfg-path train_configs/minigpt4_stage2_finetune.yaml` this error occurs, how can i fix it? ``` ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 81571) of binary: /home/tiger/miniconda3/envs/minigpt4/bin/python Traceback (most recent call last): File "/home/tiger/miniconda3/envs/minigpt4/bin/torchrun", line 8, in <module> sys.exit(main()) File "/home/tiger/miniconda3/envs/minigpt4/lib/python3.9/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 346, in wrapper return f(*args, **kwargs) File "/home/tiger/miniconda3/envs/minigpt4/lib/python3.9/site-packages/torch/distributed/run.py", line 794, in main run(args) File "/home/tiger/miniconda3/envs/minigpt4/lib/python3.9/site-packages/torch/distributed/run.py", line 785, in run elastic_launch( File "/home/tiger/miniconda3/envs/minigpt4/lib/python3.9/site-packages/torch/distributed/launcher/api.py", line 134, in __call__ return launch_agent(self._config, self._entrypoint, list(args)) File "/home/tiger/miniconda3/envs/minigpt4/lib/python3.9/site-packages/torch/distributed/launcher/api.py", line 250, in launch_agent raise ChildFailedError( torch.distributed.elastic.multiprocessing.errors.ChildFailedError: ============================================================ train.py FAILED ------------------------------------------------------------ Failures: <NO_OTHER_FAILURES> ------------------------------------------------------------ Root Cause (first observed failure): [0]: time : 2023-05-19_16:43:27 host : n136-117-136.byted.org rank : 0 (local_rank: 0) exitcode : 1 (pid: 81571) error_file: <N/A> traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html ======================================================================================================================== ```

And of course enable trackback on the child process/worker:
https://pytorch.org/docs/stable/elastic/errors.html

Topic		Replies	Views
Issue with PyTorch dependency Technical Help	2	1486	May 12, 2021
Lambda stack has a pytorch/CUDA version incompatibility? Technical Help	4	2386	May 1, 2023
Installing tinycudann	0	307	May 19, 2024
PyTorch Data Parallel: Unexplained System Crash on Lambda Workstation Machine Learning Research	0	1615	December 18, 2020
Allennlp and Pytorch CUDNN_STATUS_INTERNAL_ERROR Technical Help	0	1397	August 28, 2018

"ChildFailedError" fine tuning Video-Llama and Video-ChatGPT

/home/pavana/Video-ChatGPT/video_chatgpt/train/train_mem.py FAILED

Failures: <NO_OTHER_FAILURES>

Related topics

Failures:
<NO_OTHER_FAILURES>