-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathbase_config_bak.ini
executable file
·80 lines (72 loc) · 3.21 KB
/
base_config_bak.ini
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
[common_config]
# 实验根目录
experiment_dir : ${HOME}/experiment
# checkpoint路径。可以加载一个训练过的模型继续训练/预测
;ckpt_path: ${HOME}/experiment/config_ai_demo/tf_seq_label_model/model
# 工程名称
project_name : config_ai_example
#是否要做模型训练
is_train : True
#是否要做模型测试
is_test : True
#是否要做模型保存
is_save : True
#如果is_save=True,控制模型保存的参数。format表示模型文件的格式可选:h5/tf。tf_serving_version表示保存的tf_serving文件的版本号
save_args : {'fmt':"h5"}
#如果is_test=True,控制测试阶段需要对那些数据集做测评,可选:train/dev/test
#输入数据必须包含true_predict才能写入eval_phase_list
eval_phase_list : ['train', 'dev']
#如果is_test=True,控制测试阶段需要对那些数据集结果做输出,可选:train/dev/test
output_phase_list : ['train', 'dev', 'test']
#输出的experiment文件是否覆盖旧的experiment文件。
#is_overwrite_experiment=True:experiment目录为{experiment_dir}/{project_name}/{model_name}
#is_overwrite_experiment=False:experiment目录为{experiment_dir}/{project_name}/{model_name}={current_time}
is_overwrite_experiment: True
#设置随机种子,让实验可以复现。不设置则每次实验随机生成一个seed
default_random_seed: 10
#tokenizer的配置,详见wiki/tokenizers.md
[tokenizer_config]
#tokenizer的名字,可选名字参考tokenizers.TOKENIZER_MAP。可选bert_word_piece/bert4keras
tokenizer_name : bert_word_piece
#tokenizer加载的词表文件路径
tokenizer_args : {'vocabs': '${HOME}/pretrain/chinese_rbt4_L-4_H-768_A-12/vocab.txt'}
# 模型结构配置,详见wiki/nn_models.md
[nn_model_config]
# 预训练模型的类型 bert/t5/gpt/...
pretrained_model_tag : bert
# 预训练模型的地址
pretrained_model_path : ${HOME}/pretrain/chinese_rbt4_L-4_H-768_A-12
# 预训练模型名称
pretrained_model_name: distilbert-base-uncased
# blistm的维度列表
;bilstm_dim_list = [8,8]
# bert4keras框架中的transformer参数
;transformer_kwargs: {}
# 词向量维度,不使用transformers时配置
# word_embedding_dim: 512
#编译模型配置, 详见wiki/compile.md
[compile_config]
#优化器的名字
optimizer_name : adam
#优化器接受的参数,一个字典,比如传入学习率之类的。具体字段根据optimizer类型变化
optimizer_args : {'learning_rate': 3e-05}
#训练阶段配置, 详见wiki/train.md
[train_config]
# 整个训练过程的epoch数量
epochs : 5
# 每次给模型训练的batch大小
batch_size : 32
#是否覆盖tokenize好的训练数据的cache
overwrite_cache : False
#测试阶段配置, 详见wiki/test.md
[test_config]
# 每次给模型测试的batch大小
batch_size : 64
#是否覆盖tokenize好的测试数据的cache
overwrite_cache : False
#callbak配置, 详见wiki/callbacks.md
[callback_config]
#是否使用tensorboard记录模型的训练曲线。tensorboard目录为${experiment_dir}/{project_name}/tensorboard/{model_name}
tensorboard_callback: True
# 在每个epoch后在dev集上测评模型的效果,并保存结果最好的那个模型。默认评测为$.micro.f1最大认为最好。具体参考callbacks.py
;evaluator_kwargs: {"epoch_freq":1, "verbose":1, "monitor":"$.micro.f1"}