add gpt-4o

wozulong · wozulong · commit 33f5b351023a · 2024-05-14T14:27:03.000+08:00
Signed-off-by: wozulong &lt;&gt;
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1 @@
+.idea/
diff --git a/README.md b/README.md
@@ -44,7 +44,7 @@ package main
 
 import (
     "fmt"
-    "github.com/pkoukk/tiktoken-go"
+    "github.com/linux-do/tiktoken-go"
 )
 
 func main()  {
@@ -76,7 +76,7 @@ package main
 
 import (
     "fmt"
-    "github.com/pkoukk/tiktoken-go"
+    "github.com/linux-do/tiktoken-go"
 )
 
 func main()  {
@@ -117,7 +117,7 @@ package main
 import (
 	"fmt"
 
-	"github.com/pkoukk/tiktoken-go"
+	"github.com/linux-do/tiktoken-go"
 	"github.com/sashabaranov/go-openai"
 )
 
@@ -174,17 +174,20 @@ func NumTokensFromMessages(messages []openai.ChatCompletionMessage, model string
 
 
 # Available Encodings
- | Encoding name           | OpenAI models                                        |
- | ----------------------- | ---------------------------------------------------- |
- | `cl100k_base`           | `gpt-4`, `gpt-3.5-turbo`, `text-embedding-ada-002`   |
- | `p50k_base`             | Codex models, `text-davinci-002`, `text-davinci-003` |
- | `r50k_base` (or `gpt2`) | GPT-3 models like `davinci`                          |
+| Encoding name           | OpenAI models                                        |
+ |-------------------------|------------------------------------------------------|
+| `o200k_base`           | `gpt-4o`                                             |
+| `cl100k_base`           | `gpt-4`, `gpt-3.5-turbo`, `text-embedding-ada-002`   |
+| `cl100k_base`           | `text-embedding-3-large`, `text-embedding-3-small`   |
+| `p50k_base`             | Codex models, `text-davinci-002`, `text-davinci-003` |
+| `r50k_base` (or `gpt2`) | GPT-3 models like `davinci`                          |
 
 
 
 # Available Models
 | Model name                   | OpenAI models |
-| ---------------------------- | ------------- |
+|------------------------------| ------------- |
+| gpt-4o-*                     | o200k_base   |
 | gpt-4-*                      | cl100k_base   |
 | gpt-3.5-turbo-*              | cl100k_base   |
 | gpt-4                        | cl100k_base   |
@@ -208,6 +211,8 @@ func NumTokensFromMessages(messages []openai.ChatCompletionMessage, model string
 | text-davinci-edit-001        | p50k_edit     |
 | code-davinci-edit-001        | p50k_edit     |
 | text-embedding-ada-002       | cl100k_base   |
+| text-embedding-3-small       | cl100k_base   |
+| text-embedding-3-large       | cl100k_base   |
 | text-similarity-davinci-001  | r50k_base     |
 | text-similarity-curie-001    | r50k_base     |
 | text-similarity-babbage-001  | r50k_base     |
diff --git a/README_zh-hans.md b/README_zh-hans.md
@@ -43,7 +43,7 @@ package main
 
 import (
     "fmt"
-    "github.com/pkoukk/tiktoken-go"
+    "github.com/linux-do/tiktoken-go"
 )
 
 func main()  {
@@ -75,7 +75,7 @@ package main
 
 import (
     "fmt"
-    "github.com/pkoukk/tiktoken-go"
+    "github.com/linux-do/tiktoken-go"
 )
 
 func main()  {
@@ -113,7 +113,7 @@ package main
 import (
 	"fmt"
 
-	"github.com/pkoukk/tiktoken-go"
+	"github.com/linux-do/tiktoken-go"
 	"github.com/sashabaranov/go-openai"
 )
 
@@ -166,21 +166,24 @@ func NumTokensFromMessages(messages []openai.ChatCompletionMessage, model string
 }
 ```
 
-# available encodings
- | Encoding name           | OpenAI models                                        |
- | ----------------------- | ---------------------------------------------------- |
- | `cl100k_base`           | `gpt-4`, `gpt-3.5-turbo`, `text-embedding-ada-002`   |
- | `p50k_base`             | Codex models, `text-davinci-002`, `text-davinci-003` |
- | `r50k_base` (or `gpt2`) | GPT-3 models like `davinci`                          |
+# Available Encodings
+| Encoding name           | OpenAI models                                        |
+ |-------------------------|------------------------------------------------------|
+| `o200k_base`           | `gpt-4o`                                             |
+| `cl100k_base`           | `gpt-4`, `gpt-3.5-turbo`, `text-embedding-ada-002`   |
+| `cl100k_base`           | `text-embedding-3-large`, `text-embedding-3-small`   |
+| `p50k_base`             | Codex models, `text-davinci-002`, `text-davinci-003` |
+| `r50k_base` (or `gpt2`) | GPT-3 models like `davinci`                          |
 
 
-# available models
+# Available Models
 | Model name                   | OpenAI models |
-| ---------------------------- | ------------- |
-| gpt-4                        | cl100k_base   |
+|------------------------------| ------------- |
+| gpt-4o-*                     | o200k_base   |
 | gpt-4-*                      | cl100k_base   |
-| gpt-3.5-turbo                | cl100k_base   |
 | gpt-3.5-turbo-*              | cl100k_base   |
+| gpt-4                        | cl100k_base   |
+| gpt-3.5-turbo                | cl100k_base   |
 | text-davinci-003             | p50k_base     |
 | text-davinci-002             | p50k_base     |
 | text-davinci-001             | r50k_base     |
@@ -200,6 +203,8 @@ func NumTokensFromMessages(messages []openai.ChatCompletionMessage, model string
 | text-davinci-edit-001        | p50k_edit     |
 | code-davinci-edit-001        | p50k_edit     |
 | text-embedding-ada-002       | cl100k_base   |
+| text-embedding-3-small       | cl100k_base   |
+| text-embedding-3-large       | cl100k_base   |
 | text-similarity-davinci-001  | r50k_base     |
 | text-similarity-curie-001    | r50k_base     |
 | text-similarity-babbage-001  | r50k_base     |
diff --git a/doc/test_result.md b/doc/test_result.md
@@ -1,42 +1,54 @@
 # Encoding Test Result
 | python tiktoken                                          | golang tiktoken-go                                       |
 | :------------------------------------------------------- | :------------------------------------------------------- |
+| text: hallo world!, encoding: o200k_base, token: 4      | text: hallo world!, encoding: o200k_base, token: 4      |
 | text: hallo world!, encoding: cl100k_base, token: 4      | text: hallo world!, encoding: cl100k_base, token: 4      |
 | text: hallo world!, encoding: p50k_base, token: 4        | text: hallo world!, encoding: p50k_base, token: 4        |
 | text: hallo world!, encoding: r50k_base, token: 4        | text: hallo world!, encoding: r50k_base, token: 4        |
+| text: 你好世界！, encoding: o200k_base, token: 3        | text: 你好世界！, encoding: o200k_base, token: 3        |
 | text: 你好世界！, encoding: cl100k_base, token: 6        | text: 你好世界！, encoding: cl100k_base, token: 6        |
 | text: 你好世界！, encoding: p50k_base, token: 11         | text: 你好世界！, encoding: p50k_base, token: 11         |
 | text: 你好世界！, encoding: r50k_base, token: 11         | text: 你好世界！, encoding: r50k_base, token: 11         |
+| text: こんにちは世界！, encoding: o200k_base, token: 3  | text: こんにちは世界！, encoding: cl100k_base, token: 3  |
 | text: こんにちは世界！, encoding: cl100k_base, token: 5  | text: こんにちは世界！, encoding: cl100k_base, token: 5  |
 | text: こんにちは世界！, encoding: p50k_base, token: 13   | text: こんにちは世界！, encoding: p50k_base, token: 13   |
 | text: こんにちは世界！, encoding: r50k_base, token: 13   | text: こんにちは世界！, encoding: r50k_base, token: 13   |
+| text: 안녕하세요 세계!, encoding: o200k_base, token: 4 | text: 안녕하세요 세계!, encoding: o200k_base, token: 4 |
 | text: 안녕하세요 세계!, encoding: cl100k_base, token: 10 | text: 안녕하세요 세계!, encoding: cl100k_base, token: 10 |
 | text: 안녕하세요 세계!, encoding: p50k_base, token: 21   | text: 안녕하세요 세계!, encoding: p50k_base, token: 21   |
 | text: 안녕하세요 세계!, encoding: r50k_base, token: 21   | text: 안녕하세요 세계!, encoding: r50k_base, token: 21   |
+| text: Привет мир!, encoding: o200k_base, token: 4       | text: Привет мир!, encoding: cl100k_base, token: 4       |
 | text: Привет мир!, encoding: cl100k_base, token: 6       | text: Привет мир!, encoding: cl100k_base, token: 6       |
 | text: Привет мир!, encoding: p50k_base, token: 12        | text: Привет мир!, encoding: p50k_base, token: 12        |
 | text: Привет мир!, encoding: r50k_base, token: 12        | text: Привет мир!, encoding: r50k_base, token: 12        |
+| text: ¡Hola mundo!, encoding: o200k_base, token: 4      | text: ¡Hola mundo!, encoding: o200k_base, token: 4      |
 | text: ¡Hola mundo!, encoding: cl100k_base, token: 4      | text: ¡Hola mundo!, encoding: cl100k_base, token: 4      |
 | text: ¡Hola mundo!, encoding: p50k_base, token: 7        | text: ¡Hola mundo!, encoding: p50k_base, token: 7        |
 | text: ¡Hola mundo!, encoding: r50k_base, token: 7        | text: ¡Hola mundo!, encoding: r50k_base, token: 7        |
+| text: Hallo Welt!, encoding: o200k_base, token: 3       | text: Hallo Welt!, encoding: o200k_base, token: 3       |
 | text: Hallo Welt!, encoding: cl100k_base, token: 3       | text: Hallo Welt!, encoding: cl100k_base, token: 3       |
 | text: Hallo Welt!, encoding: p50k_base, token: 5         | text: Hallo Welt!, encoding: p50k_base, token: 5         |
 | text: Hallo Welt!, encoding: r50k_base, token: 5         | text: Hallo Welt!, encoding: r50k_base, token: 5         |
+| text: Bonjour le monde!, encoding: o200k_base, token: 4 | text: Bonjour le monde!, encoding: o200k_base, token: 4 |
 | text: Bonjour le monde!, encoding: cl100k_base, token: 4 | text: Bonjour le monde!, encoding: cl100k_base, token: 4 |
 | text: Bonjour le monde!, encoding: p50k_base, token: 7   | text: Bonjour le monde!, encoding: p50k_base, token: 7   |
 | text: Bonjour le monde!, encoding: r50k_base, token: 7   | text: Bonjour le monde!, encoding: r50k_base, token: 7   |
+| text: Ciao mondo!, encoding: o200k_base, token: 4       | text: Ciao mondo!, encoding: o200k_base, token: 4       |
 | text: Ciao mondo!, encoding: cl100k_base, token: 4       | text: Ciao mondo!, encoding: cl100k_base, token: 4       |
 | text: Ciao mondo!, encoding: p50k_base, token: 5         | text: Ciao mondo!, encoding: p50k_base, token: 5         |
 | text: Ciao mondo!, encoding: r50k_base, token: 5         | text: Ciao mondo!, encoding: r50k_base, token: 5         |
+| text: Hej världen!, encoding: cl100k_base, token: 3      | text: Hej världen!, encoding: o200k_base, token: 3      |
 | text: Hej världen!, encoding: cl100k_base, token: 7      | text: Hej världen!, encoding: cl100k_base, token: 7      |
 | text: Hej världen!, encoding: p50k_base, token: 8        | text: Hej världen!, encoding: p50k_base, token: 8        |
 | text: Hej världen!, encoding: r50k_base, token: 8        | text: Hej världen!, encoding: r50k_base, token: 8        |
+| text: Hallo wereld!, encoding: o200k_base, token: 3     | text: Hallo wereld!, encoding: o200k_base, token: 3     |
 | text: Hallo wereld!, encoding: cl100k_base, token: 3     | text: Hallo wereld!, encoding: cl100k_base, token: 3     |
 | text: Hallo wereld!, encoding: p50k_base, token: 5       | text: Hallo wereld!, encoding: p50k_base, token: 5       |
 | text: Hallo wereld!, encoding: r50k_base, token: 5       | text: Hallo wereld!, encoding: r50k_base, token: 5       |
 | text: Hallo verden!, encoding: cl100k_base, token: 4     | text: Hallo verden!, encoding: cl100k_base, token: 4     |
 | text: Hallo verden!, encoding: p50k_base, token: 5       | text: Hallo verden!, encoding: p50k_base, token: 5       |
 | text: Hallo verden!, encoding: r50k_base, token: 5       | text: Hallo verden!, encoding: r50k_base, token: 5       |
+| text: Hallo wereld!, encoding: o200k_base, token: 3     | text: Hallo wereld!, encoding: o200k_base, token: 3     |
 | text: Hallo wereld!, encoding: cl100k_base, token: 3     | text: Hallo wereld!, encoding: cl100k_base, token: 3     |
 | text: Hallo wereld!, encoding: p50k_base, token: 5       | text: Hallo wereld!, encoding: p50k_base, token: 5       |
 | text: Hallo wereld!, encoding: r50k_base, token: 5       | text: Hallo wereld!, encoding: r50k_base, token: 5       |
diff --git a/encoding.go b/encoding.go
@@ -2,6 +2,7 @@ package tiktoken
 
 import (
 	"errors"
+	"strings"
 	"sync"
 )
 
@@ -12,40 +13,51 @@ const FIM_SUFFIX string = "<|fim_suffix|>"
 const ENDOFPROMPT string = "<|endofprompt|>"
 
 const (
+	MODEL_O200K_BASE  string = "o200k_base"
 	MODEL_CL100K_BASE string = "cl100k_base"
 	MODEL_P50K_BASE   string = "p50k_base"
 	MODEL_P50K_EDIT   string = "p50k_edit"
 	MODEL_R50K_BASE   string = "r50k_base"
+	MODEL_GPT2        string = "gpt2"
 )
 
 var MODEL_TO_ENCODING = map[string]string{
 	// chat
+	"gpt-4o":        MODEL_O200K_BASE,
 	"gpt-4":         MODEL_CL100K_BASE,
 	"gpt-3.5-turbo": MODEL_CL100K_BASE,
-	// text
+	"gpt-3.5":       MODEL_CL100K_BASE, // Common shorthand
+	"gpt-35-turbo":  MODEL_CL100K_BASE, // Azure deployment name
+	// base
+	"davinci-002": MODEL_CL100K_BASE,
+	"babbage-002": MODEL_CL100K_BASE,
+	// embeddings
+	"text-embedding-ada-002": MODEL_CL100K_BASE,
+	"text-embedding-3-small": MODEL_CL100K_BASE,
+	"text-embedding-3-large": MODEL_CL100K_BASE,
+	// DEPRECATED MODELS
+	// text (DEPRECATED)
 	"text-davinci-003": MODEL_P50K_BASE,
 	"text-davinci-002": MODEL_P50K_BASE,
-	"text-davinci-001": MODEL_R50K_BASE,
-	"text-curie-001":   MODEL_R50K_BASE,
-	"text-babbage-001": MODEL_R50K_BASE,
-	"text-ada-001":     MODEL_R50K_BASE,
-	"davinci":          MODEL_R50K_BASE,
-	"curie":            MODEL_R50K_BASE,
-	"babbage":          MODEL_R50K_BASE,
-	"ada":              MODEL_R50K_BASE,
-	// code
+	"text-davinci-001": MODEL_P50K_BASE,
+	"text-curie-001":   MODEL_P50K_BASE,
+	"text-babbage-001": MODEL_P50K_BASE,
+	"text-ada-001":     MODEL_P50K_BASE,
+	"davinci":          MODEL_P50K_BASE,
+	"curie":            MODEL_P50K_BASE,
+	"babbage":          MODEL_P50K_BASE,
+	"ada":              MODEL_P50K_BASE,
+	// code (DEPRECATED)
 	"code-davinci-002": MODEL_P50K_BASE,
 	"code-davinci-001": MODEL_P50K_BASE,
 	"code-cushman-002": MODEL_P50K_BASE,
 	"code-cushman-001": MODEL_P50K_BASE,
 	"davinci-codex":    MODEL_P50K_BASE,
 	"cushman-codex":    MODEL_P50K_BASE,
-	// edit
+	// edit (DEPRECATED)
 	"text-davinci-edit-001": MODEL_P50K_EDIT,
 	"code-davinci-edit-001": MODEL_P50K_EDIT,
-	// embeddings
-	"text-embedding-ada-002": MODEL_CL100K_BASE,
-	// old embeddings
+	// old embeddings (DEPRECATED)
 	"text-similarity-davinci-001":  MODEL_R50K_BASE,
 	"text-similarity-curie-001":    MODEL_R50K_BASE,
 	"text-similarity-babbage-001":  MODEL_R50K_BASE,
@@ -57,13 +69,21 @@ var MODEL_TO_ENCODING = map[string]string{
 	"code-search-babbage-code-001": MODEL_R50K_BASE,
 	"code-search-ada-code-001":     MODEL_R50K_BASE,
 	// open source
-	"gpt2": "gpt2",
+	"gpt2":  MODEL_GPT2,
+	"gpt-2": MODEL_GPT2, // Maintains consistency with gpt-4
 }
 
 var MODEL_PREFIX_TO_ENCODING = map[string]string{
 	// chat
+	"gpt-4o-":        MODEL_O200K_BASE,  // e.g., gpt-4o-2024-05-13
 	"gpt-4-":         MODEL_CL100K_BASE, // e.g., gpt-4-0314, etc., plus gpt-4-32k
 	"gpt-3.5-turbo-": MODEL_CL100K_BASE, // e.g, gpt-3.5-turbo-0301, -0401, etc.
+	"gpt-35-turbo-":  MODEL_CL100K_BASE, // Azure deployment name
+	// fine-tuned
+	"ft:gpt-4":         MODEL_CL100K_BASE,
+	"ft:gpt-3.5-turbo": MODEL_CL100K_BASE,
+	"ft:davinci-002":   MODEL_CL100K_BASE,
+	"ft:babbage-002":   MODEL_CL100K_BASE,
 }
 
 var encodingMap map[string]*Encoding
@@ -98,6 +118,8 @@ func getEncoding(encodingName string) (*Encoding, error) {
 
 func initEncoding(encodingName string) (*Encoding, error) {
 	switch encodingName {
+	case MODEL_O200K_BASE:
+		return o200k_base()
 	case MODEL_CL100K_BASE:
 		return cl100k_base()
 	case MODEL_P50K_BASE:
@@ -111,6 +133,33 @@ func initEncoding(encodingName string) (*Encoding, error) {
 	}
 }
 
+func o200k_base() (*Encoding, error) {
+	ranks, err := bpeLoader.LoadTiktokenBpe("https://openaipublic.blob.core.windows.net/encodings/o200k_base.tiktoken")
+	if err != nil {
+		return nil, err
+	}
+	special_tokens := map[string]int{
+		ENDOFTEXT:   199999,
+		ENDOFPROMPT: 200018,
+	}
+	patStr := []string{
+		`[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]*[\p{Ll}\p{Lm}\p{Lo}\p{M}]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?`,
+		`[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]+[\p{Ll}\p{Lm}\p{Lo}\p{M}]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?`,
+		`\p{N}{1,3}`,
+		` ?[^\s\p{L}\p{N}]+[\r\n/]*`,
+		`\s*[\r\n]+`,
+		`\s+(?!\S)`,
+		`\s+`,
+	}
+
+	return &Encoding{
+		Name:           MODEL_O200K_BASE,
+		PatStr:         strings.Join(patStr, "|"),
+		MergeableRanks: ranks,
+		SpecialTokens:  special_tokens,
+	}, nil
+}
+
 func cl100k_base() (*Encoding, error) {
 	ranks, err := bpeLoader.LoadTiktokenBpe("https://openaipublic.blob.core.windows.net/encodings/cl100k_base.tiktoken")
 	if err != nil {
diff --git a/go.mod b/go.mod
@@ -1,10 +1,10 @@
-module github.com/pkoukk/tiktoken-go
+module github.com/linux-do/tiktoken-go
 
 go 1.19
 
 require (
-	github.com/dlclark/regexp2 v1.10.0
-	github.com/google/uuid v1.3.0
+	github.com/dlclark/regexp2 v1.11.0
+	github.com/google/uuid v1.6.0
 	github.com/stretchr/testify v1.8.2
 )
 
diff --git a/go.sum b/go.sum
@@ -3,8 +3,12 @@ github.com/davecgh/go-spew v1.1.1 h1:vj9j/u1bqnvCEfJOwUhtlOARqs3+rkHYY13jYWTU97c
 github.com/davecgh/go-spew v1.1.1/go.mod h1:J7Y8YcW2NihsgmVo/mv3lAwl/skON4iLHjSsI+c5H38=
 github.com/dlclark/regexp2 v1.10.0 h1:+/GIL799phkJqYW+3YbOd8LCcbHzT0Pbo8zl70MHsq0=
 github.com/dlclark/regexp2 v1.10.0/go.mod h1:DHkYz0B9wPfa6wondMfaivmHpzrQ3v9q8cnmRbL6yW8=
+github.com/dlclark/regexp2 v1.11.0 h1:G/nrcoOa7ZXlpoa/91N3X7mM3r8eIlMBBJZvsz/mxKI=
+github.com/dlclark/regexp2 v1.11.0/go.mod h1:DHkYz0B9wPfa6wondMfaivmHpzrQ3v9q8cnmRbL6yW8=
 github.com/google/uuid v1.3.0 h1:t6JiXgmwXMjEs8VusXIJk2BXHsn+wx8BZdTaoZ5fu7I=
 github.com/google/uuid v1.3.0/go.mod h1:TIyPZe4MgqvfeYDBFedMoGGpEw/LqOeaOT+nhxU+yHo=
+github.com/google/uuid v1.6.0 h1:NIvaJDMOsjHA8n1jAhLSgzrAzy1Hgr+hNrb57e+94F0=
+github.com/google/uuid v1.6.0/go.mod h1:TIyPZe4MgqvfeYDBFedMoGGpEw/LqOeaOT+nhxU+yHo=
 github.com/pmezard/go-difflib v1.0.0 h1:4DBwDE0NGyQoBHbLQYPwSUPoCMWR5BEzIk/f1lZbAQM=
 github.com/pmezard/go-difflib v1.0.0/go.mod h1:iKH77koFhYxTK1pcRnkKkqfTogsbg7gZNVY4sRDYZ/4=
 github.com/stretchr/objx v0.1.0/go.mod h1:HFkY916IF+rwdDfMAkV7OtwuqBVzrE8GR6GFx+wExME=
diff --git a/test/benchmark_test.go b/test/benchmark_test.go
@@ -7,7 +7,7 @@ import (
 	"strings"
 	"testing"
 
-	"github.com/pkoukk/tiktoken-go"
+	"github.com/linux-do/tiktoken-go"
 )
 
 func BenchmarkEncodingInFullLanguage(b *testing.B) {
diff --git a/test/test.txt b/test/test.txt
@@ -1,3 +1,3 @@
 hallo world!,你好世界！,こんにちは世界！,안녕하세요 세계!,Привет мир!,¡Hola mundo!,Hallo Welt!,Bonjour le monde!,Ciao mondo!,Hej världen!,Hallo wereld!,Hallo verden!,Hallo wereld!,Hallo verden!
-gpt-4,gpt-3.5-turbo,text-davinci-003,text-davinci-002,text-davinci-001,text-curie-001,text-babbage-001,text-ada-001,davinci,curie,babbage,ada,code-davinci-002,code-davinci-001,code-cushman-002,code-cushman-001,davinci-codex,cushman-codex,text-davinci-edit-001,code-davinci-edit-001,text-embedding-ada-002,text-similarity-davinci-001
-cl100k_base,p50k_base,r50k_base
+gpt-4o,gpt-4-turbo,gpt-4,gpt-3.5-turbo,text-davinci-003,text-davinci-002,text-davinci-001,text-curie-001,text-babbage-001,text-ada-001,davinci,curie,babbage,ada,code-davinci-002,code-davinci-001,code-cushman-002,code-cushman-001,davinci-codex,cushman-codex,text-davinci-edit-001,code-davinci-edit-001,text-embedding-ada-002,text-similarity-davinci-001
+o200k_base,cl100k_base,p50k_base,r50k_base
diff --git a/test/token_num.go b/test/token_num.go
@@ -7,7 +7,7 @@ import (
 	"os"
 	"strings"
 
-	"github.com/pkoukk/tiktoken-go"
+	"github.com/linux-do/tiktoken-go"
 )
 
 // main
diff --git a/tiktoken.go b/tiktoken.go
@@ -90,6 +90,10 @@ func (t *Tiktoken) Decode(tokens []int) string {
 	return string(t.bpe.decodeNative(tokens))
 }
 
+func (t *Tiktoken) EncoderName() string {
+	return t.pbeEncoding.Name
+}
+
 func (t *Tiktoken) SpecialTokenRegex(disallowedSpecialSet map[string]any) *regexp2.Regexp {
 	specialRegexStrs := make([]string, 0, len(disallowedSpecialSet))
 	for k := range disallowedSpecialSet {

Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ import (`
`7`	`7`	`"strings"`
`8`	`8`	`"testing"`
`9`	`9`
`10`		`- "github.com/pkoukk/tiktoken-go"`
	`10`	`+ "github.com/linux-do/tiktoken-go"`
`11`	`11`	`)`
`12`	`12`
`13`	`13`	`func BenchmarkEncodingInFullLanguage(b *testing.B) {`
Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ import (`
`7`	`7`	`"os"`
`8`	`8`	`"strings"`
`9`	`9`
`10`		`- "github.com/pkoukk/tiktoken-go"`
	`10`	`+ "github.com/linux-do/tiktoken-go"`
`11`	`11`	`)`
`12`	`12`
`13`	`13`	`// main`