update to use Claude 3.5 Haiku (#408)

vbarda · web-flow · commit eddb98ccb9fc · 2025-01-08T15:41:40.000-05:00
diff --git a/backend/retrieval_graph/configuration.py b/backend/retrieval_graph/configuration.py
@@ -15,14 +15,14 @@ class AgentConfiguration(BaseConfiguration):
     # models
 
     query_model: str = field(
-        default="openai/gpt-4o-mini",
+        default="anthropic/claude-3-5-haiku-20241022",
         metadata={
             "description": "The language model used for processing and refining queries. Should be in the form: provider/model-name."
         },
     )
 
     response_model: str = field(
-        default="openai/gpt-4o-mini",
+        default="anthropic/claude-3-5-haiku-20241022",
         metadata={
             "description": "The language model used for generating responses. Should be in the form: provider/model-name."
         },
diff --git a/backend/tests/evals/test_e2e.py b/backend/tests/evals/test_e2e.py
@@ -5,13 +5,12 @@
 from langchain_core.documents import Document
 from langchain_core.messages import AIMessage
 from langchain_core.prompts import ChatPromptTemplate
-from langchain_openai import ChatOpenAI
 from langsmith.evaluation import EvaluationResults, aevaluate
 from langsmith.schemas import Example, Run
 from pydantic import BaseModel, Field
 
 from backend.retrieval_graph.graph import graph
-from backend.utils import format_docs
+from backend.utils import format_docs, load_chat_model
 
 DATASET_NAME = "chat-langchain-qa"
 EXPERIMENT_PREFIX = "chat-langchain-ci"
@@ -20,10 +19,9 @@
 SCORE_ANSWER_CORRECTNESS = "answer_correctness_score"
 SCORE_ANSWER_VS_CONTEXT_CORRECTNESS = "answer_vs_context_correctness_score"
 
-# claude sonnet / gpt-4o are a bit too expensive
-JUDGE_MODEL_NAME = "gpt-4o-mini"
+JUDGE_MODEL_NAME = "anthropic/claude-3-5-haiku-20241022"
 
-judge_llm = ChatOpenAI(model_name=JUDGE_MODEL_NAME)
+judge_llm = load_chat_model(JUDGE_MODEL_NAME)
 
 
 # Evaluate retrieval
diff --git a/frontend/app/components/SelectModel.tsx b/frontend/app/components/SelectModel.tsx
@@ -10,8 +10,8 @@ import {
 } from "./ui/select";
 
 const modelOptionsAndLabels: Partial<Record<ModelOptions, string>> = {
+  "anthropic/claude-3-5-haiku-20241022": "Claude 3.5 Haiku",
   "openai/gpt-4o-mini": "GPT 4o Mini",
-  "anthropic/claude-3-haiku-20240307": "Claude 3 Haiku",
   // "groq/llama3-70b-8192": "Llama3 70b (Groq)",
   "google_genai/gemini-pro": "Gemini Pro",
 };
@@ -24,7 +24,7 @@ export function SelectModelComponent() {
     <Select
       onValueChange={(v) => setSelectedModel(v as ModelOptions)}
       value={selectedModel}
-      defaultValue="openai/gpt-4o-mini"
+      defaultValue="anthropic/claude-3-5-haiku-20241022"
     >
       <SelectTrigger className="w-[180px] border-gray-600 text-gray-200">
         <SelectValue placeholder="Model" />
diff --git a/frontend/app/contexts/GraphContext.tsx b/frontend/app/contexts/GraphContext.tsx
@@ -62,7 +62,7 @@ export function GraphProvider({ children }: { children: ReactNode }) {
   const { shareRun } = useRuns();
   const [messages, setMessages] = useState<BaseMessage[]>([]);
   const [selectedModel, setSelectedModel] =
-    useState<ModelOptions>("openai/gpt-4o-mini");
+    useState<ModelOptions>("anthropic/claude-3-5-haiku-20241022");
 
   const streamMessage = async (params: GraphInput): Promise<void> => {
     if (!threadId) {
diff --git a/frontend/app/types.ts b/frontend/app/types.ts
@@ -21,6 +21,6 @@ export type Feedback = {
 
 export type ModelOptions =
   | "openai/gpt-4o-mini"
-  | "anthropic/claude-3-haiku-20240307"
+  | "anthropic/claude-3-5-haiku-20241022"
   | "groq/llama3-70b-8192"
   | "google_genai/gemini-pro";