MENU

LLM評価– tag –

Product Research

Cekura – 音声・チャットAIエージェントの品質を可視化する分析プラットフォーム

Cekuraは音声・チャットAIエージェントのパフォーマンスを包括的に監視・分析するプラットフォーム。30種類以上の事前定義メトリクス、わずか20件の会話アノテーションで構築できるLLM評価システム、リアルタイムダッシュボードを提供し、会話AIの品質向上を支援します。

March 24, 2026
Product Research

Agenta – AIチーム向けプロンプト管理・評価機能を備えたLLMOps基盤

Agentaは、AIアプリケーション開発に特化したオープンソースのLLMOpsプラットフォームです。プロンプト管理、評価実行、デバッグトレース機能により、開発者とドメインエキスパートの協働を促進し、信頼性の高いLLMアプリの迅速な提供を実現します。

November 28, 2025
Product Research

Stax – LLMの性能評価を自動化する次世代AIテスト支援ツール

GoogleLabsが開発したStaxは、LLMの評価を「感覚的なテスト」から「データに基づく分析」へと進化させる画期的なツール。カスタマイズ可能な自動評価システムにより、AIモデルの性能を正確に測定し、改善のための具体的な指標を提供します。

September 5, 2025

1