这次要复现的一个项目是KnowLog,首先创建一个虚拟环境

conda create KnowLog -n python=3.8
conda activate KnowLog

然后来到项目的根目录,安装项目所需的环境

pip install -r requirements.txt

之后尝试运行训练的部分

python KnowLog_pretrain.py --pretrain_data ./datasets/pre-train/all_log.json --abbr ./datasets/pre-train/abbr.json --base_model bert-base-uncased

毫无意外的会出报错,提示少了什么包,这时候提示缺什么用pip安装即可

再安装完这些包之后,再次尝试训练,出现了下面这个错

image-20240331100215828

查了一下是python关于SSLError的错误,尝试降级版本解决

pip install urllib3==1.25.11

image-20240331101640666

成功解决问题,开启魔法可以正常下载了

image-20240331101821967

但是发现下载一半又断开连接了,可能是这种下载方式不支持断点续传,于是打算先把预训练模型下载到本地试试

huggingface-cli download --resume-download google-bert/bert-base-uncased --local-dir bert-base-uncased

image-20240331104044658

下好了之后再次尝试跑一下,应该是下了CPU版的torch,重新安装一下吧

image-20240331104118085

conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 cudatoolkit=11.3

再次尝试训练,跑通了!!!

image-20240331110908244

但是一直卡在34%了…重启运行了一下代码,把代理开了开(可能是代理的原因?)就可以继续往下跑了,但是好像跑不动,之后在GPU服务器上跑一下试试

image-20240331112852208

尝试直接验证一下模型

python KnowLog_finetune_single.py --train_data ./datasets/tasks/MC/hw_switch_train.json --dev_data ./datasets/tasks/MC/hw_switch_dev.json --test_data ./datasets/tasks/MC/hw_switch_test.json

image-20240331113220505

也跑通了,之后在服务器上完整的跑一下