tokenizer.tokenize()问题 #83

472027909 · 2022-06-10T05:52:29Z

run_ner_crf.py
train分支时，为什么from_pretrained（）函数后留了一个逗号，导致，tokenizer.tokenize()分词的不是逐个字符分的，导致tokens和label_ids长度不等。
tokenizer = tokenizer_class.from_pretrained(args.model_name_or_path, do_lower_case=args.do_lower_case, )

run_ner_span.py
这个就是用的不带逗号的from_pretrained（）tokenizer.tokenize()分词是逐个字符分的，这样tokens和label_ids长度相等。
tokenizer = tokenizer_class.from_pretrained(args.model_name_or_path, do_lower_case=args.do_lower_case)

这么写的区别在哪，
感觉这是个bug
修正后，最大的问题，用run_ner_crf.py训练自己数据集，两个epoch之后recall就会一直下降，这个问题作者遇到过吗，有空麻烦回一下

lsx0930 · 2022-06-26T12:43:12Z

#86

472027909 closed this as completed Jun 28, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

tokenizer.tokenize()问题 #83

tokenizer.tokenize()问题 #83

472027909 commented Jun 10, 2022

lsx0930 commented Jun 26, 2022

tokenizer.tokenize()问题 #83

tokenizer.tokenize()问题 #83

Comments

472027909 commented Jun 10, 2022

lsx0930 commented Jun 26, 2022