backend/llm.py

"""大语言模型工厂：支持 OpenAI 兼容的云端 API、Anthropic 兼容 API 和本地 Ollama。"""

import os
from typing import Any

from dotenv import load_dotenv

load_dotenv()


class _BaseLLM:
    """LLM 统一接口基类 — 所有后端都提供 invoke() 和 stream()。"""

    def invoke(self, prompt: str) -> Any:
        raise NotImplementedError

    def stream(self, prompt: str):
        raise NotImplementedError


def get_llm():
    backend = os.getenv("LLM_BACKEND", "cloud")
    if backend == "local":
        from langchain_ollama import ChatOllama

        model = os.getenv("LOCAL_LLM_MODEL", "qwen2.5-coder:7b")
        raw = ChatOllama(model=model, temperature=0.1)

        class OllamaWrapper(_BaseLLM):
            def invoke(self, prompt):
                return raw.invoke(prompt)

            def stream(self, prompt):
                for chunk in raw.stream(prompt):
                    yield chunk.content

        return OllamaWrapper()

    provider = os.getenv("LLM_PROVIDER", "openai")
    if provider == "anthropic":
        from anthropic import Anthropic

        api_key = os.getenv("OPENAI_API_KEY", "")
        base_url = os.getenv("OPENAI_BASE_URL", "https://api.minimaxi.com/anthropic")
        model = os.getenv("LLM_MODEL", "minimax-2.7")
        temperature = 0.1
        max_tokens = 4096

        os.environ["NO_PROXY"] = "*"

        client = Anthropic(api_key=api_key, base_url=base_url, timeout=120)

        class MiniMaxLLM(_BaseLLM):
            def invoke(self, prompt: str) -> Any:
                resp = client.messages.create(
                    model=model,
                    max_tokens=max_tokens,
                    temperature=temperature,
                    messages=[{"role": "user", "content": [{"type": "text", "text": prompt}]}],
                )
                for block in resp.content:
                    if block.type == "text":
                        return type("Response", (), {"content": block.text})()
                return type("Response", (), {"content": ""})()

            def stream(self, prompt: str):
                with client.messages.stream(
                    model=model,
                    max_tokens=max_tokens,
                    temperature=temperature,
                    messages=[{"role": "user", "content": [{"type": "text", "text": prompt}]}],
                ) as s:
                    for text in s.text_stream:
                        yield text

            def get_num_tokens(self, text: str) -> int:
                resp = client.messages.count_tokens(
                    model=model,
                    messages=[{"role": "user", "content": [{"type": "text", "text": text}]}],
                )
                return resp.input_tokens

        return MiniMaxLLM()
    else:
        from langchain_openai import ChatOpenAI

        raw = ChatOpenAI(
            model=os.getenv("LLM_MODEL", "gpt-4o"),
            api_key=os.getenv("OPENAI_API_KEY"),
            base_url=os.getenv("OPENAI_BASE_URL", "https://api.openai.com/v1"),
            temperature=0.1,
        )

        class OpenAIWrapper(_BaseLLM):
            def invoke(self, prompt):
                return raw.invoke(prompt)

            def stream(self, prompt):
                for chunk in raw.stream(prompt):
                    yield chunk.content

        return OpenAIWrapper()


def get_llm_for_correction():
    return get_llm()
feat: add Anthropic API provider support and missing env vars 2026-05-14 23:39:00 +08:00			`"""大语言模型工厂：支持 OpenAI 兼容的云端 API、Anthropic 兼容 API 和本地 Ollama。"""`
feat: 后端基础设施 — LLM工厂/Embedding工厂/验证客户端/会话持久化 2026-05-14 23:20:56 +08:00
			`import os`
fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00			`from typing import Any`

feat: 后端基础设施 — LLM工厂/Embedding工厂/验证客户端/会话持久化 2026-05-14 23:20:56 +08:00			`from dotenv import load_dotenv`

			`load_dotenv()`


feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`class _BaseLLM:`
			`"""LLM 统一接口基类 — 所有后端都提供 invoke() 和 stream()。"""`

			`def invoke(self, prompt: str) -> Any:`
			`raise NotImplementedError`

			`def stream(self, prompt: str):`
			`raise NotImplementedError`


feat: 后端基础设施 — LLM工厂/Embedding工厂/验证客户端/会话持久化 2026-05-14 23:20:56 +08:00			`def get_llm():`
			`backend = os.getenv("LLM_BACKEND", "cloud")`
			`if backend == "local":`
			`from langchain_ollama import ChatOllama`

			`model = os.getenv("LOCAL_LLM_MODEL", "qwen2.5-coder:7b")`
feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`raw = ChatOllama(model=model, temperature=0.1)`

			`class OllamaWrapper(_BaseLLM):`
			`def invoke(self, prompt):`
			`return raw.invoke(prompt)`

			`def stream(self, prompt):`
			`for chunk in raw.stream(prompt):`
			`yield chunk.content`

			`return OllamaWrapper()`
feat: add Anthropic API provider support and missing env vars 2026-05-14 23:39:00 +08:00
			`provider = os.getenv("LLM_PROVIDER", "openai")`
			`if provider == "anthropic":`
fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00			`from anthropic import Anthropic`

			`api_key = os.getenv("OPENAI_API_KEY", "")`
			`base_url = os.getenv("OPENAI_BASE_URL", "https://api.minimaxi.com/anthropic")`
			`model = os.getenv("LLM_MODEL", "minimax-2.7")`
			`temperature = 0.1`
			`max_tokens = 4096`

			`os.environ["NO_PROXY"] = "*"`

feat: integrate RAG rag_jrxml submodule and fix Anthropic API key 2026-05-19 09:42:57 +08:00			`client = Anthropic(api_key=api_key, base_url=base_url, timeout=120)`
fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00
feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`class MiniMaxLLM(_BaseLLM):`
fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00			`def invoke(self, prompt: str) -> Any:`
			`resp = client.messages.create(`
			`model=model,`
			`max_tokens=max_tokens,`
			`temperature=temperature,`
			`messages=[{"role": "user", "content": [{"type": "text", "text": prompt}]}],`
			`)`
			`for block in resp.content:`
			`if block.type == "text":`
			`return type("Response", (), {"content": block.text})()`
			`return type("Response", (), {"content": ""})()`

feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`def stream(self, prompt: str):`
			`with client.messages.stream(`
			`model=model,`
			`max_tokens=max_tokens,`
			`temperature=temperature,`
			`messages=[{"role": "user", "content": [{"type": "text", "text": prompt}]}],`
			`) as s:`
			`for text in s.text_stream:`
			`yield text`

fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00			`def get_num_tokens(self, text: str) -> int:`
feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`resp = client.messages.count_tokens(`
			`model=model,`
			`messages=[{"role": "user", "content": [{"type": "text", "text": text}]}],`
			`)`
			`return resp.input_tokens`
fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00
			`return MiniMaxLLM()`
feat: 后端基础设施 — LLM工厂/Embedding工厂/验证客户端/会话持久化 2026-05-14 23:20:56 +08:00			`else:`
			`from langchain_openai import ChatOpenAI`

feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`raw = ChatOpenAI(`
feat: 后端基础设施 — LLM工厂/Embedding工厂/验证客户端/会话持久化 2026-05-14 23:20:56 +08:00			`model=os.getenv("LLM_MODEL", "gpt-4o"),`
			`api_key=os.getenv("OPENAI_API_KEY"),`
			`base_url=os.getenv("OPENAI_BASE_URL", "https://api.openai.com/v1"),`
			`temperature=0.1,`
			`)`

feat: comprehensive v2 upgrade — streaming, error KB, file upload, layout analysis 2026-05-19 15:02:53 +08:00			`class OpenAIWrapper(_BaseLLM):`
			`def invoke(self, prompt):`
			`return raw.invoke(prompt)`

			`def stream(self, prompt):`
			`for chunk in raw.stream(prompt):`
			`yield chunk.content`

			`return OpenAIWrapper()`

feat: 后端基础设施 — LLM工厂/Embedding工厂/验证客户端/会话持久化 2026-05-14 23:20:56 +08:00
			`def get_llm_for_correction():`
fix: use raw Anthropic SDK for MiniMax with NO_PROXY workaround 2026-05-15 00:35:41 +08:00			`return get_llm()`