HuiResearch · Jul 30, 2021
diff --git a/‎README.md
+8-1 b/‎README.md
+8-1
diff --git a/‎convert_bert_torch_to_tf.py
+15-1 b/‎convert_bert_torch_to_tf.py
+15-1
diff --git a/‎run_classifier_glyce_bert.py
+226 b/‎run_classifier_glyce_bert.py
+226
diff --git a/‎tfbert/__init__.py
+4-3 b/‎tfbert/__init__.py
+4-3
diff --git a/‎tfbert/config/__init__.py
+2-2 b/‎tfbert/config/__init__.py
+2-2
diff --git a/‎tfbert/config/ptm.py
+80 b/‎tfbert/config/ptm.py
+80
diff --git a/‎tfbert/data/__init__.py
+2 b/‎tfbert/data/__init__.py
+2
diff --git a/‎tfbert/models/__init__.py
+3-1 b/‎tfbert/models/__init__.py
+3-1
diff --git a/‎tfbert/models/embeddings.py
+52-1 b/‎tfbert/models/embeddings.py
+52-1
diff --git a/‎tfbert/models/for_task.py
+48-22 b/‎tfbert/models/for_task.py
+48-22
diff --git a/‎tfbert/models/glyce_bert.py
+136 b/‎tfbert/models/glyce_bert.py
+136
diff --git a/‎tfbert/models/layers.py
+15-4 b/‎tfbert/models/layers.py
+15-4
diff --git a/‎tfbert/tokenizer/__init__.py
+2-1 b/‎tfbert/tokenizer/__init__.py
+2-1
diff --git a/‎tfbert/tokenizer/glyce_bert.py
+208 b/‎tfbert/tokenizer/glyce_bert.py
+208
@@ -22,7 +22,7 @@ config、tokenizer参考的transformers的实现。
 内置代码示例数据集[百度网盘提取码：rhxk](https://pan.baidu.com/s/1lYy7BJdadT0LJfMSsKz6AA)
 ## 支持模型
 
-bert、electra、albert、nezha、wobert
+bert、electra、albert、nezha、wobert、ChineseBert（GlyceBert）
 
 ## requirements
 ```
@@ -82,8 +82,15 @@ CUDA_VISIBLE_DEVICES=1,2 python run.py
 | **`ELECTRA, Chinese`**    | **[Chinese-ELECTRA](https://github.com/ymcui/Chinese-ELECTRA)**|
 | **`ERNIE 1.0.1, Chinese`**    | **[百度网盘(xrku)](https://pan.baidu.com/s/13eRD6uVnr4xeUfYXk8XKIw)**|
 | **`ERNIE gram base, Chinese`**    | **[百度网盘(7xet)](https://pan.baidu.com/s/1qzIuduI2ZRJDZSnNqTfscw)**|
+| **`ChineseBert, Chinese`**    | **[base(sxhj)](https://pan.baidu.com/s/1ehO52PQd6TFVhOu5RiRtZA)** **[large(zi0r)](https://pan.baidu.com/s/1IifQuRFhpwWzLJHvMR9gOQ)**|
+
 
 ## **更新记录**
+-2021/7/31 内置模型新增香侬科技开源的ChineseBert，见[glyce_bert](tfbert/models/glyce_bert.py)，目前官方只有torch版本。
+  模型增加了字形和拼音特征作为embedding表示，获得了和mac bert接近的效果，官方见[ChineseBert](https://github.com/ShannonAI/ChineseBert)
+。tf权重已经转好，可自行下载。
+  目前内置数据处理没有增加拼音特征，因此只写了一个简单[文本分类示例](run_classifier_glyce_bert.py)，后期再进行完善。
+
 - 2021/5/19 增加机器阅读理解示例代码，以dureader2021比赛数据为例，应该兼容大部分squad格式的数据。
   同时更新tokenizer代码，贴合transformers使用接口，大部分直接整合的transformers的tokenizer
 
 
@@ -13,13 +13,17 @@
 
 def convert_pytorch_checkpoint_to_tf(pt_weight_file, pt_config_file, pt_vocab_file, save_dir: str):
     tensors_to_transpose = (
-        "dense.weight", "attention.self.query", "attention.self.key", "attention.self.value")
+        "dense.weight", "attention.self.query", "attention.self.key", "attention.self.value", "glyph_map.weight",
+        "map_fc.weight")
+    glyce_bert_conv_tensors = ("conv.weight",)
 
     var_map = (
         ("layer.", "layer_"),
         ("word_embeddings.weight", "word_embeddings"),
         ("position_embeddings.weight", "position_embeddings"),
         ("token_type_embeddings.weight", "token_type_embeddings"),
+        ("pinyin_embeddings.embedding.weight", "pinyin_embeddings/embeddings"),
+        ("glyph_embeddings.embedding.weight", "glyph_embeddings/embeddings"),
         (".", "/"),
         ("LayerNorm/weight", "LayerNorm/gamma"),
         ("LayerNorm/bias", "LayerNorm/beta"),
@@ -50,6 +54,10 @@ def create_tf_var(tensor: np.ndarray, name: str, session: tf.Session):
             torch_tensor = state_dict[var_name].numpy()
             if any([x in var_name for x in tensors_to_transpose]):
                 torch_tensor = torch_tensor.T
+            if any([x in var_name for x in glyce_bert_conv_tensors]):
+                torch_tensor = torch_tensor.T
+                torch_tensor = np.expand_dims(torch_tensor, axis=2)
+
             tf_var = create_tf_var(tensor=torch_tensor, name=tf_name, session=session)
             tf.keras.backend.set_value(tf_var, torch_tensor)
             tf_weight = session.run(tf_var)
@@ -70,6 +78,12 @@ def create_tf_var(tensor: np.ndarray, name: str, session: tf.Session):
     if pt_vocab_file is not None and os.path.exists(pt_vocab_file):
         shutil.copyfile(pt_vocab_file, os.path.join(save_dir, 'vocab.txt'))
 
+    config_path = os.path.join(os.path.split(pt_config_file)[0], 'config')
+    target_dir = os.path.join(save_dir, 'config')
+    if os.path.isdir(config_path) and not os.path.exists(target_dir):
+        os.makedirs(target_dir)
+        shutil.copytree(config_path, target_dir)
+
 
 def main():
     parser = argparse.ArgumentParser()
 
@@ -0,0 +1,226 @@
+import json
+import os
+import argparse
+import tensorflow.compat.v1 as tf
+from tfbert import (
+    Trainer, Dataset,
+    SequenceClassification,
+    CONFIGS, TOKENIZERS, devices, set_seed)
+from tqdm import tqdm
+from sklearn.metrics import accuracy_score
+import pandas as pd
+from typing import Dict
+import numpy as np
+
+
+def create_args():
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--model_type', default='bert', type=str, choices=CONFIGS.keys())
+    parser.add_argument('--optimizer_type', default='adamw', type=str, help="优化器类型")
+    parser.add_argument('--model_dir', default='model_path', type=str,
+                        help="预训练模型存放文件夹，文件夹下ckpt文件名为model.ckpt，"
+                             "config文件名为config.json，词典文件名为vocab.txt")
+
+    parser.add_argument('--config_path', default=None, type=str, help="若配置文件名不是默认的，可在这里输入")
+    parser.add_argument('--vocab_path', default=None, type=str, help="若词典文件名不是默认的，可在这里输入")
+    parser.add_argument('--pretrained_checkpoint_path', default=None, type=str, help="若模型文件名不是默认的，可在这里输入")
+    parser.add_argument('--output_dir', default='output/classification', type=str, help="")
+    parser.add_argument('--export_dir', default='output/classification/pb', type=str, help="")
+
+    parser.add_argument('--labels', default='体育,娱乐,家居,房产,教育', type=str, help="文本分类标签")
+    parser.add_argument('--train_file', default='data/classification/train.csv', type=str, help="")
+    parser.add_argument('--dev_file', default='data/classification/dev.csv', type=str, help="")
+    parser.add_argument('--test_file', default='data/classification/test.csv', type=str, help="")
+
+    parser.add_argument("--num_train_epochs", default=3, type=int, help="训练轮次")
+    parser.add_argument("--max_seq_length", default=32, type=int, help="最大句子长度")
+    parser.add_argument("--batch_size", default=32, type=int, help="训练批次")
+    parser.add_argument("--gradient_accumulation_steps", default=1, type=int, help="梯度累积")
+    parser.add_argument("--learning_rate", default=2e-5, type=float, help="学习率")
+    parser.add_argument("--warmup_proportion", default=0.1, type=float,
+                        help="Proportion of training to perform linear learning rate warmup for.")
+    parser.add_argument("--weight_decay", default=0.01, type=float, help="Weight decay if we apply some.")
+
+    parser.add_argument("--do_train", action="store_true", help="Whether to run training.")
+    parser.add_argument("--do_eval", action="store_true", help="Whether to run eval on the dev set.")
+    parser.add_argument("--do_predict", action="store_true", help="Whether to run test on the test set.")
+    parser.add_argument("--evaluate_during_training", action="store_true", help="是否边训练边验证")
+    parser.add_argument("--do_export", action="store_true", help="将模型导出为pb格式.")
+
+    parser.add_argument("--logging_steps", default=1000, type=int, help="训练时每隔几步验证一次")
+    parser.add_argument("--saving_steps", default=1000, type=int, help="训练时每隔几步保存一次")
+    parser.add_argument("--random_seed", default=42, type=int, help="随机种子")
+    parser.add_argument("--threads", default=8, type=int, help="数据处理进程数")
+    parser.add_argument("--max_checkpoints", default=1, type=int, help="模型保存最大数量，默认只保存一个")
+    parser.add_argument("--single_device", action="store_true", help="是否只使用一个device，默认使用所有的device训练")
+    parser.add_argument("--use_xla", action="store_true", help="是否使用XLA加速")
+    parser.add_argument(
+        "--mixed_precision", action="store_true",
+        help="混合精度训练，tf下测试需要同时使用xla才有加速效果，但是开始编译很慢")
+    args = parser.parse_args()
+
+    if not os.path.exists(args.output_dir):
+        os.makedirs(args.output_dir)
+
+    if not args.single_device:
+        args.batch_size = args.batch_size * len(devices())
+
+    args.labels = args.labels.split(',')
+    return args
+
+
+def create_dataset(set_type, tokenizer, args):
+    filename_map = {
+        'train': args.train_file, 'dev': args.dev_file, 'test': args.test_file
+    }
+    features = []
+    datas = pd.read_csv(filename_map[set_type], encoding='utf-8', sep='\t').values.tolist()
+    label_map = {label: i for i, label in enumerate(args.labels)}
+    # glyce_bert 目前还没适配内置的数据处理代码，因此需要修改这里
+    for data in tqdm(datas):
+        encoded = tokenizer(data[1],
+                            max_length=args.max_seq_length,  # 最大长度
+                            padding="max_length",  # 是否将句子padding到最大长度
+                            truncation=True)
+        encoded['label_ids'] = label_map[data[0]]
+        features.append(encoded)
+    dataset = Dataset(features,
+                      is_training=bool(set_type == 'train'),
+                      batch_size=args.batch_size,
+                      drop_last=bool(set_type == 'train'),
+                      buffer_size=len(features),
+                      max_length=args.max_seq_length)
+    dataset.format_as(['input_ids', 'pinyin_ids', 'attention_mask', 'token_type_ids', 'label_ids'])
+    return dataset
+
+
+def get_model_fn(config, args):
+    def model_fn(inputs, is_training):
+        model = SequenceClassification(
+            model_type=args.model_type, config=config,
+            num_classes=len(args.labels), is_training=is_training,
+            **inputs)
+
+        outputs = {'outputs': {'logits': model.logits, 'label_ids': inputs['label_ids']}}
+        if model.loss is not None:
+            loss = model.loss / args.gradient_accumulation_steps
+            outputs['loss'] = loss
+        return outputs
+
+    return model_fn
+
+
+def get_serving_fn(config, args):
+    def serving_fn():
+        input_ids = tf.placeholder(shape=[None, args.max_seq_length], dtype=tf.int64, name='input_ids')
+        pinyin_ids = tf.placeholder(shape=[None, args.max_seq_length, 8], dtype=tf.int64, name='pinyin_ids')
+        attention_mask = tf.placeholder(shape=[None, args.max_seq_length], dtype=tf.int64, name='attention_mask')
+        token_type_ids = tf.placeholder(shape=[None, args.max_seq_length], dtype=tf.int64, name='token_type_ids')
+        model = SequenceClassification(
+            model_type=args.model_type, config=config,
+            num_classes=len(args.labels), is_training=False,
+            input_ids=input_ids,
+            pinyin_ids=pinyin_ids,
+            attention_mask=attention_mask,
+            token_type_ids=token_type_ids
+        )
+        inputs = {
+            'input_ids': input_ids, 'pinyin_ids': pinyin_ids,
+            'attention_mask': attention_mask, 'token_type_ids': token_type_ids}
+        outputs = {'logits': model.logits}
+        return inputs, outputs
+
+    return serving_fn
+
+
+def metric_fn(outputs: Dict) -> Dict:
+    """
+    这里定义评估函数
+    :param outputs: trainer evaluate 返回的预测结果，model fn的outputs包含哪些字段就会有哪些字段
+    :return: 需要返回字典结果
+    """
+    predictions = np.argmax(outputs['logits'], -1)
+    score = accuracy_score(outputs['label_ids'], predictions)
+    return {'accuracy': score}
+
+
+def main():
+    args = create_args()
+    set_seed(args.random_seed)
+
+    config = CONFIGS[args.model_type].from_pretrained(
+        args.model_dir if args.config_path is None else args.config_path)
+
+    tokenizer = TOKENIZERS[args.model_type].from_pretrained(
+        args.model_dir if args.vocab_path is None else args.vocab_path, do_lower_case=True)
+
+    train_dataset, dev_dataset, predict_dataset = None, None, None
+    if args.do_train:
+        train_dataset = create_dataset('train', tokenizer, args)
+
+    if args.do_eval:
+        dev_dataset = create_dataset('dev', tokenizer, args)
+
+    if args.do_predict:
+        predict_dataset = create_dataset('test', tokenizer, args)
+
+    output_types, output_shapes = (train_dataset or dev_dataset or predict_dataset).output_types_and_shapes()
+    trainer = Trainer(
+        train_dataset=train_dataset,
+        eval_dataset=dev_dataset,
+        output_types=output_types,
+        output_shapes=output_shapes,
+        metric_fn=metric_fn,
+        use_xla=args.use_xla,
+        optimizer_type=args.optimizer_type,
+        learning_rate=args.learning_rate,
+        num_train_epochs=args.num_train_epochs,
+        gradient_accumulation_steps=args.gradient_accumulation_steps,
+        max_checkpoints=1,
+        max_grad=1.0,
+        warmup_proportion=args.warmup_proportion,
+        mixed_precision=args.mixed_precision,
+        single_device=args.single_device,
+        logging=True
+    )
+    trainer.build_model(model_fn=get_model_fn(config, args))
+    if args.do_train and train_dataset is not None:
+        trainer.compile()
+        trainer.from_pretrained(
+            args.model_dir if args.pretrained_checkpoint_path is None else args.pretrained_checkpoint_path)
+
+        trainer.train(
+            output_dir=args.output_dir,
+            evaluate_during_training=args.evaluate_during_training,
+            logging_steps=args.logging_steps,
+            saving_steps=args.saving_steps,
+            greater_is_better=True, metric_for_best_model='accuracy')
+        config.save_pretrained(args.output_dir)
+        tokenizer.save_pretrained(args.output_dir)
+
+    if args.do_eval and dev_dataset is not None:
+        trainer.from_pretrained(args.output_dir)
+        eval_outputs = trainer.evaluate()
+        print(json.dumps(
+            eval_outputs, ensure_ascii=False, indent=4
+        ))
+
+    if args.do_predict and predict_dataset is not None:
+        trainer.from_pretrained(args.output_dir)
+        outputs = trainer.predict('test', ['logits'], dataset=predict_dataset)
+        label_ids = np.argmax(outputs['logits'], axis=-1)
+        labels = list(map(lambda x: args.labels[x], label_ids))
+        open(
+            os.path.join(args.output_dir, 'prediction.txt'), 'w', encoding='utf-8'
+        ).write("\n".join(labels))
+
+    if args.do_export:
+        trainer.export(
+            get_serving_fn(config, args),
+            args.output_dir,
+            args.export_dir
+        )
+
+
+if __name__ == '__main__':
+    main()
@@ -11,16 +11,17 @@
 
 from .models import (
     BertModel, ALBertModel, ElectraModel,
-    NezhaModel, WoBertModel,
+    NezhaModel, WoBertModel, GlyceBertModel,
     SequenceClassification, MODELS, crf,
     TokenClassification, MultiLabelClassification,
     MaskedLM, PretrainingLM, QuestionAnswering)
 from .config import (
     BaseConfig, BertConfig, ALBertConfig,
-    ElectraConfig, NeZhaConfig, WoBertConfig, CONFIGS)
+    ElectraConfig, NeZhaConfig, WoBertConfig, GlyceBertConfig, CONFIGS)
 from .tokenizer import (
     BasicTokenizer, BertTokenizer, WoBertTokenizer,
-    ALBertTokenizer, ElectraTokenizer, NeZhaTokenizer, TOKENIZERS)
+    ALBertTokenizer, ElectraTokenizer, NeZhaTokenizer,
+    GlyceBertTokenizer, TOKENIZERS)
 
 from .utils import (
     devices, init_checkpoints,
 
@@ -7,12 +7,12 @@
 
 from .base import BaseConfig
 from .ptm import (
-    BertConfig, ALBertConfig, ElectraConfig)
+    BertConfig, ALBertConfig, ElectraConfig, GlyceBertConfig)
 from .ptm import BertConfig as NeZhaConfig
 from .ptm import BertConfig as WoBertConfig
 
 CONFIGS = {
     'bert': BertConfig, 'albert': ALBertConfig,
     'nezha': NeZhaConfig, 'electra': ElectraConfig,
-    'wobert': WoBertConfig
+    'wobert': WoBertConfig, 'glyce_bert': GlyceBertConfig
 }
@@ -7,6 +7,8 @@
 from . import BaseConfig
 import re
 import tensorflow.compat.v1 as tf
+import os
+import shutil
 
 
 class BertConfig(BaseConfig):
@@ -150,3 +152,81 @@ def from_checkpoint(cls, checkpoint_path, **kwargs):
         param['num_attention_heads'] = max(1, param["hidden_size"] // 64)
 
         return cls(**param, **kwargs)
+
+
+class GlyceBertConfig(BaseConfig):
+    def __init__(self,
+                 vocab_size,
+                 embedding_size=None,
+                 hidden_size=768,
+                 num_hidden_layers=12,
+                 num_attention_heads=12,
+                 intermediate_size=3072,
+                 hidden_act="gelu",
+                 hidden_dropout_prob=0.1,
+                 attention_probs_dropout_prob=0.1,
+                 max_position_embeddings=512,
+                 type_vocab_size=16,
+                 initializer_range=0.02,
+                 config_path="",
+                 **kwargs
+                 ):
+        super().__init__(**kwargs)
+
+        self.vocab_size = vocab_size
+        self.embedding_size = embedding_size if embedding_size is not None else hidden_size
+        self.hidden_size = hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.hidden_act = hidden_act
+        self.intermediate_size = intermediate_size
+        self.hidden_dropout_prob = hidden_dropout_prob
+        self.attention_probs_dropout_prob = attention_probs_dropout_prob
+        self.max_position_embeddings = max_position_embeddings
+        self.type_vocab_size = type_vocab_size
+        self.initializer_range = initializer_range
+        self.config_path = config_path
+
+    @classmethod
+    def from_pretrained(cls, pretrained_model_name_or_path, **kwargs):
+        '''
+        从文件夹或文件中加载config
+        :param pretrained_model_name_or_path:
+        :param kwargs:
+        :return:
+        '''
+
+        if os.path.isdir(pretrained_model_name_or_path):
+            config_file = os.path.join(pretrained_model_name_or_path, cls.filename)
+            config_path = os.path.join(pretrained_model_name_or_path, "config")
+        elif os.path.isfile(pretrained_model_name_or_path):
+            config_file = pretrained_model_name_or_path
+            dir_ = os.path.split(config_file)[0]
+            config_path = os.path.join(dir_, 'config')
+        else:
+            raise ValueError('Config path should be a directory or file')
+
+        config_dict = cls._dict_from_json_file(config_file)
+        kwargs['config_path'] = config_path
+        return cls.from_dict(config_dict, **kwargs)
+
+    def save_pretrained(self, save_dir_or_file):
+        if os.path.isdir(save_dir_or_file):
+            output_config_file = os.path.join(save_dir_or_file, self.filename)
+            config_path = os.path.join(save_dir_or_file, 'config')
+        else:
+            output_config_file = save_dir_or_file
+            config_path = os.path.join(os.path.split(save_dir_or_file)[0], "config")
+        if not os.path.exists(config_path):
+            os.makedirs(config_path)
+
+        filenames = os.listdir(self.config_path)
+        if len(filenames) > 0:
+            for filename in filenames:
+                if filename.endswith('.npy'):
+                    shutil.copyfile(
+                        os.path.join(self.config_path, filename), os.path.join(config_path, filename)
+                    )
+        self.save_to_json_file(output_config_file)
+        tf.logging.info('  Configuration saved in {}'.format(output_config_file))
+        return output_config_file
@@ -89,6 +89,8 @@ def fn(values):
             return tf.int32
         elif (isinstance(values, list) and isinstance(values[0], str)) or isinstance(values, str):
             return tf.string
+        elif isinstance(values, list) and isinstance(values[0], list):
+            return fn(values[0])
         else:
             raise ValueError(f"values={values} has dtype {values.dtype}, which cannot be supported")
 
 
@@ -8,6 +8,7 @@
 from .albert import ALBertModel
 from .electra import ElectraModel
 from .nezha import NezhaModel
+from .glyce_bert import GlyceBertModel
 from .model_utils import (
     dropout, layer_norm_and_dropout, layer_norm,
     create_weight, get_shape_list, gather_indexes, create_initializer)
@@ -21,7 +22,8 @@
     'albert': ALBertModel,
     'electra': ElectraModel,
     'wobert': WoBertModel,
-    'nezha': NezhaModel
+    'nezha': NezhaModel,
+    'glyce_bert': GlyceBertModel
 }
 
 from .for_task import (
 
@@ -2,8 +2,10 @@
 # @FileName  :embeddings.py
 # @Time      :2021/1/31 15:32
 # @Author    :huanghui
+
+import numpy as np
 import tensorflow.compat.v1 as tf
-from . import model_utils
+from . import model_utils, layers
 
 
 def create_word_embeddings(
@@ -78,3 +80,52 @@ def create_position_embeddings(
     # position_embeddings = tf.nn.embedding_lookup(full_position_embeddings, tf.range(0, seq_len))
 
     return position_embeddings
+
+
+def create_pinyin_embeddings(pinyin_ids, embedding_size: int, pinyin_out_dim: int, initializer_range,
+                             pinyin_vocab_size):
+    """chineseBERT 的pinyin嵌入"""
+    input_shape = model_utils.get_shape_list(pinyin_ids)  # bs, seq_len, pinyin_locs
+    pinyin_table = model_utils.create_weight(
+        shape=[pinyin_vocab_size, embedding_size],
+        var_name='pinyin_embeddings/embeddings',
+        initializer_range=initializer_range
+    )
+    flat_pinyin_ids = tf.reshape(pinyin_ids, [-1])
+    pinyin_embeddings = tf.gather(pinyin_table, flat_pinyin_ids)
+    pinyin_embeddings = tf.reshape(pinyin_embeddings,
+                                   [input_shape[0] * input_shape[1], input_shape[2],
+                                    embedding_size])  # bs * seq_len, pinyin_locs, embed_size
+    pinyin_embeddings = tf.expand_dims(pinyin_embeddings, -1)  # bs * seq_len, pinyin_locs, embed_size, 1
+    with tf.variable_scope("pinyin_embeddings/conv"):
+        # 接一个charCNN
+        filter_shape = [2, embedding_size, 1, pinyin_out_dim]
+        pinyin_embeddings = layers.conv2d_layer(
+            pinyin_embeddings, filter_shape, padding="VALID", act=None,
+            initializer_range=0.1)  # bs * seq_len, pinyin_locs - 2 + 1, 1, pinyin_out_dim
+        pinyin_embeddings = layers.max_pooling_layer(
+            pinyin_embeddings, ksize=[1, input_shape[2] - 2 + 1, 1, 1])  # bs * seq_len, 1, 1, pinyin_out_dim
+        pinyin_embeddings = tf.reshape(pinyin_embeddings, input_shape[:2] + [pinyin_out_dim])
+    return pinyin_embeddings
+
+
+def create_glyph_embeddings(input_ids, font_npy_files):
+    font_arrays = [
+        np.load(np_file).astype(np.float32) for np_file in font_npy_files
+    ]
+    vocab_size = font_arrays[0].shape[0]
+    font_num = len(font_arrays)
+    font_size = font_arrays[0].shape[-1]
+    font_array = np.stack(font_arrays, axis=1)
+    glyph_table = tf.get_variable(
+        name="glyph_embeddings/embeddings",
+        shape=[vocab_size, font_size ** 2 * font_num],
+        initializer=tf.constant_initializer(font_array.reshape([vocab_size, -1])))
+
+    flat_input_ids = tf.reshape(input_ids, [-1])
+    output = tf.gather(glyph_table, flat_input_ids)
+    input_shape = model_utils.get_shape_list(input_ids)
+
+    output = tf.reshape(output,
+                        input_shape + [font_size ** 2 * font_num])
+    return output
@@ -15,6 +15,7 @@ def __init__(self,
                  num_classes,
                  is_training,
                  input_ids,
+                 pinyin_ids=None,
                  attention_mask=None,
                  token_type_ids=None,
                  label_ids=None,
@@ -38,13 +39,17 @@ def __init__(self,
         if model_type not in MODELS:
             raise ValueError("Unsupported model option: {}, "
                              "you can choose one of {}".format(model_type, "、".join(MODELS.keys())))
+        kwargs = {
+            'input_ids': input_ids,
+            'attention_mask': attention_mask,
+            'token_type_ids': token_type_ids}
+        if model_type == 'glyce_bert':
+            kwargs['pinyin_ids'] = pinyin_ids
 
         model = MODELS[model_type](
             config,
             is_training=is_training,
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            token_type_ids=token_type_ids,
+            **kwargs,
             compute_type=compute_type
         )
         pooled_output = model.get_pooled_output()
@@ -69,6 +74,7 @@ def __init__(self,
                  num_classes,
                  is_training,
                  input_ids,
+                 pinyin_ids=None,
                  attention_mask=None,
                  token_type_ids=None,
                  label_ids=None,
@@ -93,14 +99,17 @@ def __init__(self,
         if model_type not in MODELS:
             raise ValueError("Unsupported model option: {}, "
                              "you can choose one of {}".format(model_type, "、".join(MODELS.keys())))
+        kwargs = {
+            'input_ids': input_ids,
+            'attention_mask': attention_mask,
+            'token_type_ids': token_type_ids}
+        if model_type == 'glyce_bert':
+            kwargs['pinyin_ids'] = pinyin_ids
 
         model = MODELS[model_type](
             config,
             is_training=is_training,
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            token_type_ids=token_type_ids,
-            return_pool=False,
+            **kwargs,
             compute_type=compute_type
         )
         sequence_output = model.get_sequence_output()
@@ -141,6 +150,7 @@ def __init__(self,
                  num_classes,
                  is_training,
                  input_ids,
+                 pinyin_ids=None,
                  attention_mask=None,
                  token_type_ids=None,
                  label_ids=None,
@@ -164,13 +174,17 @@ def __init__(self,
         if model_type not in MODELS:
             raise ValueError("Unsupported model option: {}, "
                              "you can choose one of {}".format(model_type, "、".join(MODELS.keys())))
+        kwargs = {
+            'input_ids': input_ids,
+            'attention_mask': attention_mask,
+            'token_type_ids': token_type_ids}
+        if model_type == 'glyce_bert':
+            kwargs['pinyin_ids'] = pinyin_ids
 
         model = MODELS[model_type](
             config,
             is_training=is_training,
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            token_type_ids=token_type_ids,
+            **kwargs,
             compute_type=compute_type
         )
         pooled_output = model.get_pooled_output()
@@ -196,6 +210,7 @@ def __init__(self,
                  config,
                  is_training,
                  input_ids,
+                 pinyin_ids=None,
                  attention_mask=None,
                  token_type_ids=None,
                  start_position=None,
@@ -219,14 +234,17 @@ def __init__(self,
         if model_type not in MODELS:
             raise ValueError("Unsupported model option: {}, "
                              "you can choose one of {}".format(model_type, "、".join(MODELS.keys())))
+        kwargs = {
+            'input_ids': input_ids,
+            'attention_mask': attention_mask,
+            'token_type_ids': token_type_ids}
+        if model_type == 'glyce_bert':
+            kwargs['pinyin_ids'] = pinyin_ids
 
         model = MODELS[model_type](
             config,
             is_training=is_training,
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            token_type_ids=token_type_ids,
-            return_pool=False,
+            **kwargs,
             compute_type=compute_type
         )
         sequence_output = model.get_sequence_output()
@@ -270,6 +288,7 @@ def __init__(
             config,
             is_training,
             input_ids,
+            pinyin_ids=None,
             attention_mask=None,
             token_type_ids=None,
             masked_lm_ids=None,
@@ -294,14 +313,17 @@ def __init__(
         if model_type not in MODELS:
             raise ValueError("Unsupported model option: {}, "
                              "you can choose one of {}".format(model_type, "、".join(MODELS.keys())))
+        kwargs = {
+            'input_ids': input_ids,
+            'attention_mask': attention_mask,
+            'token_type_ids': token_type_ids}
+        if model_type == 'glyce_bert':
+            kwargs['pinyin_ids'] = pinyin_ids
 
         model = MODELS[model_type](
             config,
             is_training=is_training,
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            token_type_ids=token_type_ids,
-            return_pool=False,
+            **kwargs,
             compute_type=compute_type
         )
         sequence_output = model.get_sequence_output()
@@ -322,6 +344,7 @@ def __init__(
             config,
             is_training,
             input_ids,
+            pinyin_ids=None,
             attention_mask=None,
             token_type_ids=None,
             masked_lm_ids=None,
@@ -334,14 +357,17 @@ def __init__(
         if model_type not in MODELS:
             raise ValueError("Unsupported model option: {}, "
                              "you can choose one of {}".format(model_type, "、".join(MODELS.keys())))
+        kwargs = {
+            'input_ids': input_ids,
+            'attention_mask': attention_mask,
+            'token_type_ids': token_type_ids}
+        if model_type == 'glyce_bert':
+            kwargs['pinyin_ids'] = pinyin_ids
 
         model = MODELS[model_type](
             config,
             is_training=is_training,
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            token_type_ids=token_type_ids,
-            return_pool=True,
+            **kwargs,
             compute_type=compute_type
         )
         sequence_output = model.get_sequence_output()
 
@@ -0,0 +1,136 @@
+# -*- coding:utf-8 -*-
+# @FileName  :glyce_bert.py
+# @Time      :2021/7/29 14:11
+# @Author    :huanghui
+import os
+import json
+import tensorflow.compat.v1 as tf
+from . import embeddings, layers, model_utils
+from .base import BaseModel
+from .bert import bert_encoder
+
+
+def glyph_bert_embeddings(
+        config,
+        input_ids,
+        pinyin_ids,
+        token_type_ids=None
+):
+    (word_embeddings, embedding_table) = embeddings.create_word_embeddings(
+        input_ids=input_ids,
+        vocab_size=config.vocab_size,
+        embedding_size=config.embedding_size,
+        initializer_range=config.initializer_range,
+        word_embedding_name="word_embeddings"
+    )
+
+    with open(os.path.join(config.config_path, 'pinyin_map.json')) as fin:
+        pinyin_dict = json.load(fin)
+    pinyin_embeddings = embeddings.create_pinyin_embeddings(
+        pinyin_ids,
+        embedding_size=128,
+        pinyin_out_dim=config.embedding_size,
+        initializer_range=config.initializer_range,
+        pinyin_vocab_size=len(pinyin_dict['idx2char']))
+
+    font_files = []
+    for file in os.listdir(config.config_path):
+        if file.endswith(".npy"):
+            font_files.append(os.path.join(config.config_path, file))
+    glyph_embeddings = embeddings.create_glyph_embeddings(
+        input_ids, font_files
+    )
+    glyph_embeddings = layers.dense(glyph_embeddings, config.embedding_size, name="glyph_map")
+
+    # fusion layer
+    concat_embeddings = tf.concat([word_embeddings, pinyin_embeddings, glyph_embeddings], axis=2)
+    inputs_embeds = layers.dense(concat_embeddings, config.embedding_size, name='map_fc')
+
+    token_type_embeddings = embeddings.create_token_type_embeddings(
+        token_type_ids=token_type_ids,
+        embedding_size=config.embedding_size,
+        token_type_vocab_size=config.type_vocab_size,
+        token_type_embedding_name='token_type_embeddings',
+        initializer_range=config.initializer_range
+    )
+
+    position_embeddings = embeddings.create_position_embeddings(
+        seq_len=model_utils.get_shape_list(input_ids)[1],
+        embedding_size=config.embedding_size,
+        position_embedding_name='position_embeddings',
+        initializer_range=config.initializer_range,
+        max_position_embeddings=config.max_position_embeddings
+    )
+
+    embedding_output = inputs_embeds + position_embeddings + token_type_embeddings
+    embedding_output = model_utils.layer_norm_and_dropout(
+        embedding_output,
+        config.hidden_dropout_prob
+    )
+
+    return embedding_output, embedding_table
+
+
+class GlyceBertModel(BaseModel):
+    def __init__(
+            self,
+            config,
+            is_training,
+            input_ids,
+            pinyin_ids,
+            attention_mask=None,
+            token_type_ids=None,
+            return_pool=True,
+            scope=None,
+            reuse=False,
+            compute_type=tf.float32
+    ):
+        super().__init__(config, is_training)
+
+        input_shape = model_utils.get_shape_list(input_ids, expected_rank=2)
+        batch_size = input_shape[0]
+        seq_length = input_shape[1]
+
+        if attention_mask is None:
+            attention_mask = tf.ones(shape=[batch_size, seq_length], dtype=tf.int64)
+
+        if token_type_ids is None:
+            token_type_ids = tf.zeros(shape=[batch_size, seq_length], dtype=tf.int64)
+
+        with tf.variable_scope(
+                scope, default_name="bert",
+                reuse=tf.AUTO_REUSE if reuse else None,
+                custom_getter=model_utils.get_custom_getter(compute_type)):
+            with tf.variable_scope("embeddings"):
+                self.embedding_output, self.embedding_table = glyph_bert_embeddings(
+                    config=self.config,
+                    input_ids=input_ids,
+                    pinyin_ids=pinyin_ids,
+                    token_type_ids=token_type_ids
+                )
+
+            with tf.variable_scope("encoder"):
+                attention_mask = model_utils.create_bert_mask(
+                    input_ids, attention_mask)
+                if model_utils.get_shape_list(self.embedding_output)[-1] != self.config.hidden_size:
+                    self.embedding_output = layers.dense(
+                        self.embedding_output, self.config.hidden_size,
+                        'embedding_hidden_mapping_in', initializer_range=self.config.initializer_range
+                    )
+                encoder_outputs = bert_encoder(
+                    input_tensor=tf.saturate_cast(self.embedding_output, compute_type),
+                    attention_mask=attention_mask,
+                    config=self.config,
+                    use_relative_position=False
+                )
+            if return_pool:
+                with tf.variable_scope("pooler"):
+                    pooled_output = layers.pooler_layer(
+                        sequence_output=encoder_outputs[0],
+                        hidden_size=self.config.hidden_size,
+                        initializer_range=self.config.initializer_range
+                    )
+            else:
+                pooled_output = None
+        # (pooled output, sequence output, all layer outputs, all layer att probs)
+        self.outputs = (pooled_output,) + encoder_outputs
@@ -4,6 +4,7 @@
 # @Author    :huanghui
 
 import tensorflow.compat.v1 as tf
+from tensorflow.python.ops import gen_nn_ops
 import math
 from . import model_utils, activations
 from . import crf
@@ -292,20 +293,21 @@ def conv2d_layer(
     if strides is None:
         strides = [1, 1, 1, 1]
     W = tf.get_variable(
-        name='weight', shape=filter_shape,
+        name='kernel', shape=filter_shape,
         initializer=model_utils.create_initializer(initializer_range))
     b = tf.get_variable(
         name='bias', shape=[filter_shape[-1]],
         initializer=model_utils.create_initializer(initializer_range))
     output = tf.nn.conv2d(input_tensor, W, strides=strides, padding=padding)
+    output = tf.nn.bias_add(output, b)
     act_fn = activations.get_activation(act)
     if act_fn is not None:
-        output = act_fn(tf.nn.bias_add(output, b))
+        output = act_fn(output)
     return output
 
 
 def max_pooling_layer(
-        input_tensor, ksize: List[int],
+        input_tensor, ksize,
         strides=None, padding="VALID",
         name='max_pool'):
     """
@@ -319,13 +321,22 @@ def max_pooling_layer(
     """
     if strides is None:
         strides = [1, 1, 1, 1]
-    output = tf.nn.max_pool(
+
+    # 支持动态大小的池化
+    output = gen_nn_ops.max_pool_v2(
         input_tensor,
         ksize=ksize,
         strides=strides,
         padding=padding,
         name=name
     )
+    # output = tf.nn.max_pool(
+    #     input_tensor,
+    #     ksize=ksize,
+    #     strides=strides,
+    #     padding=padding,
+    #     name=name
+    # )
     return output
 
 
 
@@ -9,9 +9,10 @@
 from .bert import BertTokenizer as NeZhaTokenizer
 from .bert import BertTokenizer as ElectraTokenizer
 from .wobert import WoBertTokenizer
+from .glyce_bert import GlyceBertTokenizer
 
 TOKENIZERS = {
     'bert': BertTokenizer, 'albert': ALBertTokenizer,
     'nezha': NeZhaTokenizer, 'electra': ElectraTokenizer,
-    'wobert': WoBertTokenizer
+    'wobert': WoBertTokenizer, 'glyce_bert': GlyceBertTokenizer
 }
@@ -0,0 +1,208 @@
+# -*- coding:utf-8 -*-
+# @FileName  :glyce_bert.py
+# @Time      :2021/7/29 18:19
+# @Author    :huanghui
+import os
+import tensorflow.compat.v1 as tf
+import json
+from .tokenization_base import convert_to_unicode, PaddingStrategy, TruncationStrategy
+from .bert import BertTokenizer
+from typing import List, Union, Tuple, Optional
+
+
+class GlyceBertTokenizer(BertTokenizer):
+    def __init__(self, config_path, **kwargs):
+        super(GlyceBertTokenizer, self).__init__(**kwargs)
+        # load pinyin map dict
+        with open(os.path.join(config_path, 'pinyin_map.json'), encoding='utf8') as fin:
+            self.pinyin_dict = json.load(fin)
+        # load char id map tensor
+        with open(os.path.join(config_path, 'id2pinyin.json'), encoding='utf8') as fin:
+            self.id2pinyin = json.load(fin)
+        # load pinyin map tensor
+        with open(os.path.join(config_path, 'pinyin2tensor.json'), encoding='utf8') as fin:
+            self.pinyin2tensor = json.load(fin)
+
+    def save_pretrained(self, save_directory):
+
+        if os.path.isdir(save_directory):
+            vocab_file = os.path.join(save_directory, 'vocab.txt')
+            config_path = os.path.join(save_directory, 'config')
+        else:
+            vocab_file = save_directory
+            config_path = os.path.join(os.path.split(save_directory)[0], "config")
+
+        if not os.path.exists(config_path):
+            os.makedirs(config_path)
+
+        with open(os.path.join(config_path, 'pinyin_map.json'), "w", encoding='utf8') as fin:
+            fin.write(json.dumps(self.pinyin_dict, ensure_ascii=False))
+
+        with open(os.path.join(config_path, 'id2pinyin.json'), "w", encoding='utf8') as fin:
+            fin.write(json.dumps(self.id2pinyin, ensure_ascii=False))
+
+        with open(os.path.join(config_path, 'pinyin2tensor.json'), "w", encoding='utf8') as fin:
+            fin.write(json.dumps(self.pinyin2tensor, ensure_ascii=False))
+
+        with open(vocab_file, 'w', encoding='utf-8') as writer:
+            for token, index in self.vocab.items():
+                writer.write(token.strip() + '\n')
+        tf.logging.info("  Tokenizer vocab saved in {}".format(vocab_file))
+        return vocab_file
+
+    @classmethod
+    def from_pretrained(cls, vocab_dir_or_file, **kwargs):
+        do_lower_case = kwargs.pop('do_lower_case', True)
+        if os.path.isdir(vocab_dir_or_file):
+            filename = 'vocab.txt'
+            vocab_file = os.path.join(vocab_dir_or_file, filename)
+            config_path = os.path.join(vocab_dir_or_file, "config")
+        else:
+            vocab_file = vocab_dir_or_file
+            config_path = os.path.join(os.path.split(vocab_dir_or_file)[0], "config")
+
+        return cls(config_path=config_path, vocab_file=vocab_file, do_lower_case=do_lower_case, **kwargs)
+
+    def convert_token_ids_to_pinyin_ids(self, ids):
+        from pypinyin import pinyin, Style
+
+        tokens = self.convert_ids_to_tokens(ids)
+        offsets = []
+        pos = 0
+        sentence = ""
+        for token in tokens:
+            token = token.replace("##", "").strip()
+
+            if len(token) == 0:
+                token = " "
+            if token in self.all_special_tokens:
+                token = " "
+                offsets.append((0, 0))
+            else:
+                offsets.append((pos, pos + len(token)))
+            pos += len(token)
+            sentence += token
+
+        pinyin_list = pinyin(sentence, style=Style.TONE3, heteronym=True, errors=lambda x: [['not chinese'] for _ in x])
+        pinyin_locs = {}
+        # get pinyin of each location
+        for index, item in enumerate(pinyin_list):
+            pinyin_string = item[0]
+            # not a Chinese character, pass
+            if pinyin_string == "not chinese":
+                continue
+            if pinyin_string in self.pinyin2tensor:
+                pinyin_locs[index] = self.pinyin2tensor[pinyin_string]
+            else:
+                ids = [0] * 8
+                for i, p in enumerate(pinyin_string):
+                    if p not in self.pinyin_dict["char2idx"]:
+                        ids = [0] * 8
+                        break
+                    ids[i] = self.pinyin_dict["char2idx"][p]
+                pinyin_locs[index] = ids
+
+        # find chinese character location, and generate pinyin ids
+        pinyin_ids = []
+        for idx, offset in enumerate(offsets):
+            if offset[1] - offset[0] != 1:
+                pinyin_ids.append([0] * 8)
+                continue
+            if offset[0] in pinyin_locs:
+                pinyin_ids.append(pinyin_locs[offset[0]])
+            else:
+                pinyin_ids.append([0] * 8)
+
+        return pinyin_ids
+
+    def _encode_plus(
+            self,
+            text: Union[str, List[str], List[int]],
+            text_pair: Optional[Union[str, List[str], List[int]]] = None,
+            add_special_tokens: bool = True,
+            padding_strategy: Union[bool, str, PaddingStrategy] = PaddingStrategy.DO_NOT_PAD,
+            truncation_strategy: Union[bool, str, TruncationStrategy] = TruncationStrategy.DO_NOT_TRUNCATE,
+            max_length: Optional[int] = None,
+            stride: int = 0,
+            return_token_type_ids: Optional[bool] = None,
+            return_attention_mask: Optional[bool] = None,
+            return_overflowing_tokens: bool = False,
+            return_special_tokens_mask: bool = False,
+            return_length: bool = False,
+    ):
+        first_ids = self.get_input_ids(text)
+        second_ids = self.get_input_ids(text_pair) if text_pair is not None else None
+        encoded = self.prepare_for_model(
+            first_ids,
+            pair_ids=second_ids,
+            add_special_tokens=add_special_tokens,
+            padding=padding_strategy,
+            truncation=truncation_strategy,
+            max_length=max_length,
+            stride=stride,
+            return_attention_mask=return_attention_mask,
+            return_token_type_ids=return_token_type_ids,
+            return_overflowing_tokens=return_overflowing_tokens,
+            return_special_tokens_mask=return_special_tokens_mask,
+            return_length=return_length
+        )
+        pinyin_ids = self.convert_token_ids_to_pinyin_ids(encoded['input_ids'])
+        assert len(pinyin_ids) == len(encoded['input_ids'])
+        encoded['pinyin_ids'] = pinyin_ids
+        return encoded
+
+    def _batch_encode_plus(
+            self,
+            batch_text_or_text_pairs: Union[
+                List[str],
+                List[Tuple[str, str]],
+                List[Tuple[List[str], List[str]]],
+                List[Tuple[str, str]],
+                List[List[int]],
+                List[Tuple[List[int], List[int]]],
+            ],
+            add_special_tokens: bool = True,
+            padding_strategy: Union[bool, str, PaddingStrategy] = PaddingStrategy.DO_NOT_PAD,
+            truncation_strategy: Union[bool, str, TruncationStrategy] = TruncationStrategy.DO_NOT_TRUNCATE,
+            max_length: Optional[int] = None,
+            stride: int = 0,
+            is_split_into_words: bool = False,
+            return_token_type_ids: Optional[bool] = None,
+            return_attention_mask: Optional[bool] = None,
+            return_overflowing_tokens: bool = False,
+            return_special_tokens_mask: bool = False,
+            return_length: bool = False,
+    ):
+        input_ids = []
+        for ids_or_pair_ids in batch_text_or_text_pairs:
+            if not isinstance(ids_or_pair_ids, (list, tuple)):
+                ids, pair_ids = ids_or_pair_ids, None
+            elif is_split_into_words and not isinstance(ids_or_pair_ids[0], (list, tuple)):
+                ids, pair_ids = ids_or_pair_ids, None
+            else:
+                ids, pair_ids = ids_or_pair_ids
+
+            first_ids = self.get_input_ids(ids)
+            second_ids = self.get_input_ids(pair_ids) if pair_ids is not None else None
+            input_ids.append((first_ids, second_ids))
+
+        batch_outputs = self._batch_prepare_for_model(
+            input_ids,
+            add_special_tokens=add_special_tokens,
+            padding_strategy=padding_strategy,
+            truncation_strategy=truncation_strategy,
+            max_length=max_length,
+            stride=stride,
+            return_attention_mask=return_attention_mask,
+            return_token_type_ids=return_token_type_ids,
+            return_overflowing_tokens=return_overflowing_tokens,
+            return_special_tokens_mask=return_special_tokens_mask,
+            return_length=return_length
+        )
+        batch_pinyin_ids = []
+        for i in batch_outputs['input_ids']:
+            pinyin_ids = self.convert_token_ids_to_pinyin_ids(batch_outputs['input_ids'][i])
+            assert len(pinyin_ids) == len(batch_outputs['input_ids'][i])
+            batch_pinyin_ids.append(pinyin_ids)
+        batch_outputs['pinyin_ids'] = batch_pinyin_ids
+        return batch_outputs