Merge branch 'feat/RAAE-531/mistral-vectorizer' into feat/RAAE-517/default-float32

justin-cechmanek · justin-cechmanek · commit 64115ed88e24 · 2025-01-07T12:24:56.000-08:00
diff --git a/docs/user_guide/vectorizers_04.ipynb b/docs/user_guide/vectorizers_04.ipynb
@@ -31,7 +31,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 2,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -305,33 +305,25 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 3,
    "metadata": {},
    "outputs": [
-    {
-     "name": "stderr",
-     "output_type": "stream",
-     "text": [
-      "/Users/tyler.hutcherson/redis/redis-vl-python/.venv/lib/python3.9/site-packages/torch/_utils.py:831: UserWarning: TypedStorage is deprecated. It will be removed in the future and UntypedStorage will be the only storage class. This should only matter to you if you are using storages directly.  To access UntypedStorage directly, use tensor.untyped_storage() instead of tensor.storage()\n",
-      "  return self.fget.__get__(instance, owner)()\n"
-     ]
-    },
     {
      "data": {
       "text/plain": [
-       "[0.00037810884532518685,\n",
-       " -0.05080341175198555,\n",
-       " -0.03514723479747772,\n",
-       " -0.02325104922056198,\n",
-       " -0.044158220291137695,\n",
-       " 0.020487844944000244,\n",
-       " 0.0014617963461205363,\n",
-       " 0.031261757016181946,\n",
+       "[0.0003780885017476976,\n",
+       " -0.05080340430140495,\n",
+       " -0.035147231072187424,\n",
+       " -0.02325103059411049,\n",
+       " -0.04415831342339516,\n",
+       " 0.02048780582845211,\n",
+       " 0.0014618589775636792,\n",
+       " 0.03126184269785881,\n",
        " 0.05605152249336243,\n",
-       " 0.018815357238054276]"
+       " 0.018815429881215096]"
       ]
      },
-     "execution_count": 6,
+     "execution_count": 3,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -532,14 +524,14 @@
     }
    ],
    "source": [
-    "# from redisvl.utils.vectorize import MistralAITextVectorizer\n",
+    "from redisvl.utils.vectorize import MistralAITextVectorizer\n",
     "\n",
-    "# mistral = MistralAITextVectorizer()\n",
+    "mistral = MistralAITextVectorizer()\n",
     "\n",
-    "# # embed a sentence using their asyncronous method\n",
-    "# test = await mistral.aembed(\"This is a test sentence.\")\n",
-    "# print(\"Vector dimensions: \", len(test))\n",
-    "# print(test[:10])"
+    "# embed a sentence using their asyncronous method\n",
+    "test = await mistral.aembed(\"This is a test sentence.\")\n",
+    "print(\"Vector dimensions: \", len(test))\n",
+    "print(test[:10])"
    ]
   },
   {
@@ -588,9 +580,17 @@
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 3,
    "metadata": {},
-   "outputs": [],
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Vector dimensions: 1024\n"
+     ]
+    }
+   ],
    "source": [
     "from redisvl.utils.vectorize import BedrockTextVectorizer\n",
     "\n",
diff --git a/poetry.lock b/poetry.lock
diff --git a/pyproject.toml b/pyproject.toml
@@ -32,7 +32,7 @@ sentence-transformers = { version = ">=2.2.2", optional = true }
 google-cloud-aiplatform = { version = ">=1.26", optional = true }
 protobuf = { version = ">=5.29.1,<6.0.0.dev0", optional = true }
 cohere = { version = ">=4.44", optional = true }
-mistralai = { version = ">=0.2.0", optional = true }
+mistralai = { version = ">=1.0.0", optional = true }
 boto3 = { version = ">=1.34.0", optional = true }
 
 [tool.poetry.extras]
diff --git a/redisvl/utils/vectorize/text/mistral.py b/redisvl/utils/vectorize/text/mistral.py
@@ -44,7 +44,6 @@ class MistralAITextVectorizer(BaseVectorizer):
     """
 
     _client: Any = PrivateAttr()
-    _aclient: Any = PrivateAttr()
 
     def __init__(
         self,
@@ -78,8 +77,7 @@ def _initialize_clients(self, api_config: Optional[Dict]):
         """
         # Dynamic import of the mistralai module
         try:
-            from mistralai.async_client import MistralAsyncClient
-            from mistralai.client import MistralClient
+            from mistralai import Mistral
         except ImportError:
             raise ImportError(
                 "MistralAI vectorizer requires the mistralai library. \
@@ -97,13 +95,12 @@ def _initialize_clients(self, api_config: Optional[Dict]):
                     environment variable."
             )
 
-        self._client = MistralClient(api_key=api_key)
-        self._aclient = MistralAsyncClient(api_key=api_key)
+        self._client = Mistral(api_key=api_key)
 
     def _set_model_dims(self, model) -> int:
         try:
             embedding = (
-                self._client.embeddings(model=model, input=["dimension test"])
+                self._client.embeddings.create(model=model, inputs=["dimension test"])
                 .data[0]
                 .embedding
             )
@@ -153,7 +150,7 @@ def embed_many(
 
         embeddings: List = []
         for batch in self.batchify(texts, batch_size, preprocess):
-            response = self._client.embeddings(model=self.model, input=batch)
+            response = self._client.embeddings.create(model=self.model, inputs=batch)
             embeddings += [
                 self._process_embedding(r.embedding, as_buffer, dtype)
                 for r in response.data
@@ -195,7 +192,7 @@ def embed(
 
         dtype = kwargs.pop("dtype", self.dtype)
 
-        result = self._client.embeddings(model=self.model, input=[text])
+        result = self._client.embeddings.create(model=self.model, inputs=[text])
         return self._process_embedding(result.data[0].embedding, as_buffer, dtype)
 
     @retry(
@@ -237,7 +234,9 @@ async def aembed_many(
 
         embeddings: List = []
         for batch in self.batchify(texts, batch_size, preprocess):
-            response = await self._aclient.embeddings(model=self.model, input=batch)
+            response = await self._client.embeddings.create_async(
+                model=self.model, inputs=batch
+            )
             embeddings += [
                 self._process_embedding(r.embedding, as_buffer, dtype)
                 for r in response.data
@@ -279,7 +278,9 @@ async def aembed(
 
         dtype = kwargs.pop("dtype", self.dtype)
 
-        result = await self._aclient.embeddings(model=self.model, input=[text])
+        result = await self._client.embeddings.create_async(
+            model=self.model, inputs=[text]
+        )
         return self._process_embedding(result.data[0].embedding, as_buffer, dtype)
 
     @property
diff --git a/tests/integration/test_vectorizers.py b/tests/integration/test_vectorizers.py
@@ -28,7 +28,7 @@ def skip_vectorizer() -> bool:
         CohereTextVectorizer,
         AzureOpenAITextVectorizer,
         BedrockTextVectorizer,
-        # MistralAITextVectorizer,
+        MistralAITextVectorizer,
         CustomTextVectorizer,
     ]
 )
@@ -299,7 +299,7 @@ def test_dtypes(vector_class, skip_vectorizer):
     params=[
         OpenAITextVectorizer,
         BedrockTextVectorizer,
-        # MistralAITextVectorizer,
+        MistralAITextVectorizer,
         CustomTextVectorizer,
     ]
 )

Original file line number	Diff line number	Diff line change
`@@ -28,7 +28,7 @@ def skip_vectorizer() -> bool:`
`28`	`28`	`CohereTextVectorizer,`
`29`	`29`	`AzureOpenAITextVectorizer,`
`30`	`30`	`BedrockTextVectorizer,`
`31`		`- # MistralAITextVectorizer,`
	`31`	`+ MistralAITextVectorizer,`
`32`	`32`	`CustomTextVectorizer,`
`33`	`33`	`]`
`34`	`34`	`)`
`@@ -299,7 +299,7 @@ def test_dtypes(vector_class, skip_vectorizer):`
`299`	`299`	`params=[`
`300`	`300`	`OpenAITextVectorizer,`
`301`	`301`	`BedrockTextVectorizer,`
`302`		`- # MistralAITextVectorizer,`
	`302`	`+ MistralAITextVectorizer,`
`303`	`303`	`CustomTextVectorizer,`
`304`	`304`	`]`
`305`	`305`	`)`