fix(brain): Proxy-Timeout 20min -> 24h Read, split httpx-Timeouts, Cleanup-Pfade

Brain timed bei langen Pentests nach exakt 20:00 min raus, obwohl ARIAs Subprozess fleissig weiterarbeitete und der Live-View alles zeigte. Root-Cause: proxy_client.py hatte einen 1200s httpx.Client-Timeout — genau der Wert, den wir vor 5 Tagen am Proxy auf 24h hochgezogen hatten. Schicht uebersehen. - docker-compose.yml: PROXY_TIMEOUT_SEC=86400 als brain-env. - proxy_client.py: httpx.Timeout split (connect=10, read=86400, write=30, pool=10). Toter Proxy wird in 10s erkannt, lange ARIA-Sessions duerfen 24h laufen. - routes.js handleNonStreamingResponse: res.on("close") + isComplete-Flag. Brain-Disconnect killt jetzt den Subprozess statt ihn verwaisen zu lassen. - agent.py chat(): try/except — bei Exception nach dem User-Turn wird ein Assistant-Error-Marker geschrieben, damit Conversation user->assistant konsistent bleibt (kein Tool-Call-Loop-Fail in Folge-Calls). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-23 14:24:22 +02:00
parent f5243b1abb
commit 0887674497
4 changed files with 105 additions and 40 deletions
@@ -25,7 +25,17 @@ logger = logging.getLogger(__name__)
 RUNTIME_CONFIG_FILE = Path("/shared/config/runtime.json")
 ENV_MODEL = os.environ.get("BRAIN_MODEL", "claude-sonnet-4")
 PROXY_URL = os.environ.get("PROXY_URL", "http://proxy:3456")
-PROXY_TIMEOUT_SEC = float(os.environ.get("PROXY_TIMEOUT_SEC", "1200"))
+# Read-Timeout: wie lange wir auf die HTTP-Antwort vom Proxy warten.
+# Proxy ist non-streaming → erstes Byte kommt erst NACH subprocess close.
+# Agent-Loops (Pentests etc.) koennen >1h dauern → muss hoch sein.
+# Default 24h, kann via PROXY_TIMEOUT_SEC env ueberschrieben werden.
+PROXY_TIMEOUT_SEC = float(os.environ.get("PROXY_TIMEOUT_SEC", "86400"))
+# Connect/Write/Pool: klein damit toter Proxy schnell erkannt wird.
+# Wenn der Proxy-Container nicht antwortet beim TCP-Connect oder waehrend
+# wir den Request-Body schreiben, ist er kaputt — kein Grund 24h zu warten.
+PROXY_CONNECT_TIMEOUT_SEC = float(os.environ.get("PROXY_CONNECT_TIMEOUT_SEC", "10"))
+PROXY_WRITE_TIMEOUT_SEC = float(os.environ.get("PROXY_WRITE_TIMEOUT_SEC", "30"))
+PROXY_POOL_TIMEOUT_SEC = float(os.environ.get("PROXY_POOL_TIMEOUT_SEC", "10"))


 def _read_model_from_runtime() -> str:
@@ -62,8 +72,15 @@ class ProxyClient:
    def __init__(self, base_url: str = PROXY_URL, model: str = DEFAULT_MODEL):
        self.base_url = base_url.rstrip("/")
        self.model = model
-        # Persistente Client-Connection — vermeidet TCP-Handshake bei jedem Call
-        self._client = httpx.Client(timeout=PROXY_TIMEOUT_SEC)
+        # Persistente Client-Connection — vermeidet TCP-Handshake bei jedem Call.
+        # Timeouts split nach Phase: connect/write/pool klein (toter Proxy → schnell
+        # ReadTimeout), read gross (ARIA darf ewig rechnen).
+        self._client = httpx.Client(timeout=httpx.Timeout(
+            connect=PROXY_CONNECT_TIMEOUT_SEC,
+            read=PROXY_TIMEOUT_SEC,
+            write=PROXY_WRITE_TIMEOUT_SEC,
+            pool=PROXY_POOL_TIMEOUT_SEC,
+        ))

    def chat(self, messages: List[Message], model: Optional[str] = None) -> str:
        """Convenience: einfacher Chat ohne Tools. Gibt nur den Reply-String zurueck."""