LLM評価– tag –
-
Product Research
Cekura – 音声・チャットAIエージェントの品質を可視化する分析プラットフォーム
Cekuraは音声・チャットAIエージェントのパフォーマンスを包括的に監視・分析するプラットフォーム。30種類以上の事前定義メトリクス、わずか20件の会話アノテーションで構築できるLLM評価システム、リアルタイムダッシュボードを提供し、会話AIの品質向上を支援します。 -
Product Research
Agenta – AIチーム向けプロンプト管理・評価機能を備えたLLMOps基盤
Agentaは、AIアプリケーション開発に特化したオープンソースのLLMOpsプラットフォームです。プロンプト管理、評価実行、デバッグトレース機能により、開発者とドメインエキスパートの協働を促進し、信頼性の高いLLMアプリの迅速な提供を実現します。 -
Product Research
Stax – LLMの性能評価を自動化する次世代AIテスト支援ツール
GoogleLabsが開発したStaxは、LLMの評価を「感覚的なテスト」から「データに基づく分析」へと進化させる画期的なツール。カスタマイズ可能な自動評価システムにより、AIモデルの性能を正確に測定し、改善のための具体的な指標を提供します。
1