examples/base_config_bak.ini

[common_config]
# 实验根目录
experiment_dir : ${HOME}/experiment
# checkpoint路径。可以加载一个训练过的模型继续训练/预测
;ckpt_path: ${HOME}/experiment/config_ai_demo/tf_seq_label_model/model
# 工程名称
project_name : config_ai_example
#是否要做模型训练
is_train : True
#是否要做模型测试
is_test : True
#是否要做模型保存
is_save : True
#如果is_save=True,控制模型保存的参数。format表示模型文件的格式可选:h5/tf。tf_serving_version表示保存的tf_serving文件的版本号
save_args : {'fmt':"h5"}
#如果is_test=True,控制测试阶段需要对那些数据集做测评，可选：train/dev/test
#输入数据必须包含true_predict才能写入eval_phase_list
eval_phase_list : ['train', 'dev']
#如果is_test=True,控制测试阶段需要对那些数据集结果做输出，可选：train/dev/test
output_phase_list : ['train', 'dev', 'test']
#输出的experiment文件是否覆盖旧的experiment文件。
#is_overwrite_experiment=True：experiment目录为{experiment_dir}/{project_name}/{model_name}
#is_overwrite_experiment=False：experiment目录为{experiment_dir}/{project_name}/{model_name}={current_time}
is_overwrite_experiment: True
#设置随机种子，让实验可以复现。不设置则每次实验随机生成一个seed
default_random_seed: 10

#tokenizer的配置,详见wiki/tokenizers.md
[tokenizer_config]
#tokenizer的名字，可选名字参考tokenizers.TOKENIZER_MAP。可选bert_word_piece/bert4keras
tokenizer_name : bert_word_piece
#tokenizer加载的词表文件路径
tokenizer_args : {'vocabs': '${HOME}/pretrain/chinese_rbt4_L-4_H-768_A-12/vocab.txt'}

# 模型结构配置,详见wiki/nn_models.md
[nn_model_config]
# 预训练模型的类型 bert/t5/gpt/...
pretrained_model_tag : bert
# 预训练模型的地址
pretrained_model_path : ${HOME}/pretrain/chinese_rbt4_L-4_H-768_A-12
# 预训练模型名称
pretrained_model_name: distilbert-base-uncased


# blistm的维度列表
;bilstm_dim_list = [8,8]
# bert4keras框架中的transformer参数
;transformer_kwargs: {}
# 词向量维度，不使用transformers时配置
# word_embedding_dim: 512

#编译模型配置, 详见wiki/compile.md
[compile_config]
#优化器的名字
optimizer_name : adam
#优化器接受的参数，一个字典，比如传入学习率之类的。具体字段根据optimizer类型变化
optimizer_args : {'learning_rate': 3e-05}

#训练阶段配置, 详见wiki/train.md
[train_config]
# 整个训练过程的epoch数量
epochs : 5
# 每次给模型训练的batch大小
batch_size : 32
#是否覆盖tokenize好的训练数据的cache
overwrite_cache : False

#测试阶段配置, 详见wiki/test.md
[test_config]
# 每次给模型测试的batch大小
batch_size : 64
#是否覆盖tokenize好的测试数据的cache
overwrite_cache : False

#callbak配置, 详见wiki/callbacks.md
[callback_config]
#是否使用tensorboard记录模型的训练曲线。tensorboard目录为${experiment_dir}/{project_name}/tensorboard/{model_name}
tensorboard_callback: True
# 在每个epoch后在dev集上测评模型的效果，并保存结果最好的那个模型。默认评测为$.micro.f1最大认为最好。具体参考callbacks.py
;evaluator_kwargs: {"epoch_freq":1, "verbose":1, "monitor":"$.micro.f1"}