streamline api and providers specification

iamlemec · iamlemec · commit 204583916471 · 2025-05-05T14:25:09.000-05:00
diff --git a/oneping/curl.py b/oneping/curl.py
@@ -5,9 +5,7 @@
 import requests
 import aiohttp
 
-from .providers import (
-    get_provider, get_embed_provider, convert_history, DEFAULT_MAX_TOKENS
-)
+from .providers import get_provider, convert_history, DEFAULT_MAX_TOKENS
 
 ##
 ## printing
@@ -25,11 +23,15 @@ def print_dryrun(url, headers, payload):
 ## payloads
 ##
 
-def prepare_url(prov, url=None, host=None, port=None):
-    host = prov.get('host') if host is None else host
-    port = prov.get('port') if port is None else port
-    url = prov.get('url') if url is None else url
-    return url.format(host=host, port=port)
+def prepare_url(prov, path_key, base_url=None, path=None):
+    base_url = prov.get('base_url') if base_url is None else base_url
+    path = prov.get(path_key) if path is None else path
+    return f'{base_url}/{path}'
+
+def prepare_model(prov, model_key, model=None):
+    if model is None:
+        model = prov.get(model_key)
+    return {'model': model} if model is not None else {}
 
 def prepare_auth(prov, api_key=None):
     if (auth_func := prov.get('authorize')) is not None:
@@ -40,20 +42,15 @@ def prepare_auth(prov, api_key=None):
         headers_auth = {}
     return headers_auth
 
-def prepare_model(prov, model=None):
-    if model is None:
-        model = prov.get('model')
-    return {'model': model} if model is not None else {}
-
 def prepare_request(
     query, provider='local', system=None, image=None, prefill=None, prediction=None, history=None,
-    url=None, host=None, port=None, api_key=None, model=None, max_tokens=DEFAULT_MAX_TOKENS, **kwargs
+    base_url=None, path=None, api_key=None, model=None, max_tokens=DEFAULT_MAX_TOKENS, **kwargs
 ):
     # external provider details
     prov = get_provider(provider)
-    max_tokens_name = prov.get('max_tokens_name', 'max_tokens')
-    url = prepare_url(prov, url=url, host=host, port=port)
-    payload_model = prepare_model(prov, model=model)
+    max_tokens_name = prov.get('max_tokens_name', 'max_completion_tokens')
+    url = prepare_url(prov, 'chat_path', base_url=base_url, path=path)
+    payload_model = prepare_model(prov, 'chat_model', model=model)
 
     # convert history to provider format
     history = convert_history(history, prov['content'])
@@ -225,27 +222,27 @@ async def stream_async(query, provider='local', history=None, prefill=None, **kw
 ## embeddings
 ##
 
-def embed(text, provider='local', url=None, port=None, api_key=None, model=None, **kwargs):
+def embed(text, provider='local', base_url=None, path=None, api_key=None, model=None, **kwargs):
     # get provider details
-    prov = get_embed_provider(provider)
-    url = prepare_url(prov, url=url, port=port)
-    extractor = prov['embed']
+    prov = get_provider(provider)
+    url = prepare_url(prov, 'embed_path', base_url=base_url, path=path)
+    payload_model = prepare_model(prov, 'embed_model', model=model)
 
-    # get extra headers and model
+    # get extra headers
     headers_auth = prepare_auth(prov, api_key=api_key)
-    payload_model = prepare_model(prov, model=model)
+    headers_extra = prov.get('headers', {})
 
     # compose request
-    headers = {'Content-Type': 'application/json', **headers_auth}
-    payload = {'input': text, **payload_model}
+    headers = {'Content-Type': 'application/json', **headers_auth, **headers_extra}
+    payload = {'input': text, **payload_model, **kwargs}
 
     # make the request
     response = requests.post(url, headers=headers, data=json.dumps(payload))
     response.raise_for_status()
 
     # extract text
     data = response.json()
-    vecs = extractor(data)
+    vecs = prov['embed'](data)
 
     # return text
     return vecs
diff --git a/oneping/native/__init__.py b/oneping/native/__init__.py
@@ -160,7 +160,7 @@ def make_client(provider, **kwargs):
     else:
         raise Exception(f'Provider {provider} not found')
 
-def reply(query, provider, **kwargs):
+def reply(query, provider, port=None, **kwargs):
     if provider == 'openai':
         return reply_openai(query, **kwargs)
     elif provider == 'anthropic':
@@ -178,7 +178,7 @@ def reply(query, provider, **kwargs):
     else:
         raise Exception(f'Provider {provider} not found')
 
-def reply_async(query, provider, **kwargs):
+def reply_async(query, provider, port=None, **kwargs):
     if provider == 'openai':
         return reply_async_openai(query, **kwargs)
     elif provider == 'anthropic':
@@ -196,7 +196,7 @@ def reply_async(query, provider, **kwargs):
     else:
         raise Exception(f'Provider {provider} not found')
 
-def stream(query, provider, **kwargs):
+def stream(query, provider, port=None, **kwargs):
     if provider == 'openai':
         return stream_openai(query, **kwargs)
     elif provider == 'anthropic':
@@ -214,7 +214,7 @@ def stream(query, provider, **kwargs):
     else:
         raise Exception(f'Provider {provider} not found')
 
-def stream_async(query, provider, **kwargs):
+def stream_async(query, provider, port=None, **kwargs):
     if provider == 'openai':
         return stream_async_openai(query, **kwargs)
     elif provider == 'anthropic':
@@ -232,7 +232,7 @@ def stream_async(query, provider, **kwargs):
     else:
         raise Exception(f'Provider {provider} not found')
 
-def embed(text, provider, **kwargs):
+def embed(text, provider, port=None, **kwargs):
     if provider == 'openai':
         return embed_openai(text, **kwargs)
     elif provider == 'azure':
@@ -244,7 +244,7 @@ def embed(text, provider, **kwargs):
     else:
         raise Exception(f'Provider {provider} does not support embeddings')
 
-def transcribe(audio, provider, **kwargs):
+def transcribe(audio, provider, port=None, **kwargs):
     if provider == 'openai':
         return transcribe_openai(audio, **kwargs)
     elif provider == 'azure':
diff --git a/oneping/native/openai.py b/oneping/native/openai.py
@@ -4,7 +4,7 @@
 import openai
 
 from ..providers import (
-    DEFAULT_SYSTEM, OPENAI_MODEL, OPENAI_EMBED, OPENAI_WHISPER, OPENAI_KEYENV,
+    DEFAULT_SYSTEM, OPENAI_MODEL, OPENAI_EMBED, OPENAI_TRANSCRIBE, OPENAI_KEYENV,
     content_openai, convert_history, payload_openai,
     response_openai_native, stream_openai_native,
     embed_openai, transcribe_openai
@@ -59,7 +59,7 @@ def embed(query, model=OPENAI_EMBED, api_key=None, **kwargs):
     response = client.embeddings.create(model=model, **kwargs)
     return embed_openai(response)
 
-def transcribe(audio, model=OPENAI_WHISPER, api_key=None, **kwargs):
+def transcribe(audio, model=OPENAI_TRANSCRIBE, api_key=None, **kwargs):
     client = make_client(api_key=api_key)
     response = client.audio.transcriptions.create(model=model, **kwargs)
     return transcribe_openai(response)
diff --git a/oneping/providers.py b/oneping/providers.py
@@ -13,10 +13,10 @@
 ## models
 ##
 
-OPENAI_MODEL = 'gpt-4o'
-OPENAI_EMBED = 'text-embedding-3-small'
-OPENAI_WHISPER = 'whisper-1'
-ANTHROPIC_MODEL = 'claude-3-5-sonnet-latest'
+OPENAI_MODEL = 'gpt-4.1'
+OPENAI_EMBED = 'text-embedding-3-large'
+OPENAI_TRANSCRIBE = 'gpt-4o-transcribe'
+ANTHROPIC_MODEL = 'claude-3-7-sonnet-latest'
 FIREWORKS_MODEL = 'accounts/fireworks/models/llama-v3p3-70b-instruct'
 GROQ_MODEL = 'llama-3.3-70b-versatile'
 DEEPSEEK_MODEL = 'deepseek-chat'
@@ -42,7 +42,6 @@
 AZURE_API_VERSION = '2024-10-21'
 ANTHROPIC_HEADERS = {
     'anthropic-version': '2023-06-01',
-    'anthropic-beta': 'prompt-caching-2024-07-31',
 }
 
 ##
@@ -131,7 +130,11 @@ def payload_anthropic(content, system=None, prefill=None, prediction=None, histo
         messages.append({'role': 'assistant', 'content': prefill})
     payload = {'messages': messages}
     if system is not None:
-        payload['system'] = system
+        payload['system'] = [{
+            'text': system,
+            'type': 'text',
+            'cache_control': {'type': 'ephemeral'},
+        }]
     return payload
 
 def payload_oneping(content, system=None, prefill=None, prediction=None, history=None):
@@ -212,6 +215,10 @@ def transcribe_openai(audio):
 ##
 
 DEFAULT_PROVIDER = {
+    'chat_path': 'chat/completions',
+    'embed_path': 'embeddings',
+    'transcribe_path': 'audio/transcriptions',
+    'authorize': authorize_openai,
     'content': content_openai,
     'payload': payload_openai,
     'response': response_openai,
@@ -222,86 +229,62 @@ def transcribe_openai(audio):
 # presets for known llm providers
 LLM_PROVIDERS = {
     'local': {
-        'url': 'http://{host}:{port}/v1/chat/completions',
-        'host': 'localhost',
-        'port': 8000,
+        'base_url': 'http://localhost:8000/v1',
+        'authorize': None,
     },
     'oneping': {
-        'url': 'http://{host}:{port}/chat',
-        'host': 'localhost',
-        'port': 5000,
+        'base_url': 'http://localhost:5000',
+        'chat_path': 'chat',
         'authorize': None,
+        'max_tokens_name': 'max_tokens',
         'content': content_oneping,
         'payload': payload_oneping,
         'response': response_oneping,
         'stream': stream_oneping,
     },
     'openai': {
-        'url': 'https://api.openai.com/v1/chat/completions',
-        'authorize': authorize_openai,
-        'max_tokens_name': 'max_completion_tokens',
+        'base_url': 'https://api.openai.com/v1',
         'api_key_env': OPENAI_KEYENV,
-        'model': OPENAI_MODEL,
+        'chat_model': OPENAI_MODEL,
+        'embed_model': OPENAI_EMBED,
     },
     'anthropic': {
-        'url': 'https://api.anthropic.com/v1/messages',
+        'base_url': 'https://api.anthropic.com/v1',
+        'chat_path': 'messages',
+        'max_tokens_name': 'max_tokens',
         'content': content_anthropic,
         'payload': payload_anthropic,
         'authorize': authorize_anthropic,
         'response': response_anthropic,
         'stream': stream_anthropic,
         'api_key_env': ANTHROPIC_KEYENV,
-        'model': ANTHROPIC_MODEL,
+        'chat_model': ANTHROPIC_MODEL,
         'headers': ANTHROPIC_HEADERS,
     },
+    'google': {
+        'base_url': 'https://generativelanguage.googleapis.com/v1beta/openai',
+        'api_key_env': GOOGLE_KEYENV,
+        'chat_model': GOOGLE_MODEL,
+        'embed_model': GOOGLE_EMBED,
+    },
     'fireworks': {
-        'url': 'https://api.fireworks.ai/inference/v1/chat/completions',
-        'authorize': authorize_openai,
+        'base_url': 'https://api.fireworks.ai/inference',
         'api_key_env': FIREWORKS_KEYENV,
-        'model': FIREWORKS_MODEL,
+        'chat_model': FIREWORKS_MODEL,
     },
     'groq': {
-        'url': 'https://api.groq.com/openai/v1/chat/completions',
-        'authorize': authorize_openai,
-        'max_tokens_name': 'max_completion_tokens',
+        'base_url': 'https://api.groq.com/openai',
         'api_key_env': GROQ_KEYENV,
-        'model': GROQ_MODEL,
+        'chat_model': GROQ_MODEL,
     },
     'deepseek': {
-        'url': 'https://api.deepseek.com/chat/completions',
-        'authorize': authorize_openai,
+        'base_url': 'https://api.deepseek.com',
         'api_key_env': DEEPSEEK_KEYENV,
-        'model': DEEPSEEK_MODEL,
+        'chat_model': DEEPSEEK_MODEL,
     },
 }
 
 def get_provider(provider):
     if type(provider) is str:
         provider = LLM_PROVIDERS[provider]
     return {**DEFAULT_PROVIDER, **provider}
-
-##
-## embedding providers
-##
-
-DEFAULT_EMBED = {
-    'authorize': authorize_openai,
-    'embed': embed_openai,
-}
-
-EMBED_PROVIDERS = {
-    'local': {
-        'url': 'http://{host}:{port}/v1/embeddings',
-        'authorize': None,
-    },
-    'openai': {
-        'url': 'https://api.openai.com/v1/embeddings',
-        'api_key_env': 'OPENAI_API_KEY',
-        'model': 'text-embedding-3-small',
-    },
-}
-
-def get_embed_provider(provider):
-    if type(provider) is str:
-        provider = EMBED_PROVIDERS[provider]
-    return {**DEFAULT_EMBED, **provider}