fix: VLM 参数优化 - temperature 0.7, top_p 0.8, 指令放 system+user

- VisionAsync 新增 Temperature=0.7, TopP=0.8 - system prompt 用专业营养识别指令 - userText 用简短"请看图识别食物"配合图片 - 修复重复 prompt 导致 VLM 误读文本的 bug
2026-06-03 11:12:06 +08:00
parent c6395ea9b4
commit 78573eaa5f
46 changed files with 955 additions and 801 deletions
--- a/backend/src/Health.WebApi/Endpoints/ai_chat_endpoints.cs
+++ b/backend/src/Health.WebApi/Endpoints/ai_chat_endpoints.cs
@@ -267,22 +267,17 @@ public static class AiChatEndpoints

                // 压缩图片后转 base64（VLM API 有请求体大小限制）
                var compressedPath = Path.Combine(uploadsDir, $"compressed_{safeName}");
-                CompressImage(filePath, compressedPath, maxWidth: 2048, quality: 92L);
+                CompressImage(filePath, compressedPath, maxWidth: 1280, quality: 75L);
                var compressedBytes = await File.ReadAllBytesAsync(compressedPath, ct);
                var base64 = Convert.ToBase64String(compressedBytes);
                imageUrls.Add($"data:image/jpeg;base64,{base64}");
            }

-            var prompt = """
-                识别图片中所有食物，用中文名称，只返回JSON：
-                {
-                  "foods": [{"name":"食物名","portion":"份量","calories":整数}]
-                }
-                """;
+            var prompt = "精准识别用户提供的食物图片，提取并返回详细信息，包括但不限于食物名称、具体份量及对应热量值。系统应确保识别结果的准确性和清晰度，以便为病人的饮食管理提供可靠数据支持。";

            try
            {
-                var response = await visionClient.VisionAsync(prompt, imageUrls, ct: ct);
+                var response = await visionClient.VisionAsync(prompt, imageUrls, userText: "请看图识别食物", ct: ct);
                var result = response.Choices?.FirstOrDefault()?.Message?.Content ?? "{}";
                return Results.Ok(new { code = 0, data = result, message = (string?)null });
            }