{
  "title": "Pairwise Comparison",
  "header": [
    {
      "value": "Model/adapter",
      "markdown": false,
      "metadata": {}
    },
    {
      "value": "Summarization (Pairwise) - Pairwise",
      "description": "summarization\n\nPairwise: Whether the model's summary was preferred by the evaluator model",
      "markdown": false,
      "lower_is_better": false,
      "metadata": {
        "metric": "Pairwise",
        "run_group": "Summarization (Pairwise)"
      }
    }
  ],
  "rows": [
    [
      {
        "value": "Llama 3 Instruct (70B)",
        "description": "",
        "markdown": false
      },
      {
        "value": 0.9333333333333333,
        "description": "min=0.933, mean=0.933, max=0.933, sum=0.933 (1)",
        "style": {},
        "markdown": false,
        "run_spec_names": [
          "call_center_summarization_pairwise_comparison:model=meta_llama-3-70b-chat"
        ]
      }
    ],
    [
      {
        "value": "Llama 3 Instruct (8B)",
        "description": "",
        "markdown": false
      },
      {
        "value": 0.9708333333333333,
        "description": "min=0.971, mean=0.971, max=0.971, sum=0.971 (1)",
        "style": {
          "font-weight": "bold"
        },
        "markdown": false,
        "run_spec_names": [
          "call_center_summarization_pairwise_comparison:model=meta_llama-3-8b-chat"
        ]
      }
    ],
    [
      {
        "value": "Claude 3.5 Sonnet (20240620)",
        "description": "",
        "markdown": false
      },
      {
        "value": 0.8958333333333334,
        "description": "min=0.896, mean=0.896, max=0.896, sum=0.896 (1)",
        "style": {},
        "markdown": false,
        "run_spec_names": [
          "call_center_summarization_pairwise_comparison:model=anthropic_claude-3-5-sonnet-20240620"
        ]
      }
    ],
    [
      {
        "value": "GPT-4o (2024-05-13)",
        "description": "",
        "markdown": false
      },
      {
        "value": 0.6375,
        "description": "min=0.637, mean=0.637, max=0.637, sum=0.637 (1)",
        "style": {},
        "markdown": false,
        "run_spec_names": [
          "call_center_summarization_pairwise_comparison:model=openai_gpt-4o-2024-05-13"
        ]
      }
    ],
    [
      {
        "value": "GPT-4o mini (2024-07-18)",
        "description": "",
        "markdown": false
      },
      {
        "value": 0.4083333333333333,
        "description": "min=0.408, mean=0.408, max=0.408, sum=0.408 (1)",
        "style": {},
        "markdown": false,
        "run_spec_names": [
          "call_center_summarization_pairwise_comparison:model=openai_gpt-4o-mini-2024-07-18"
        ]
      }
    ]
  ],
  "links": [
    {
      "text": "LaTeX",
      "href": "benchmark_output/releases/v0.1.0/groups/latex/call_center_scenarios_pairwise_comparison_metrics.tex"
    },
    {
      "text": "JSON",
      "href": "benchmark_output/releases/v0.1.0/groups/json/call_center_scenarios_pairwise_comparison_metrics.json"
    }
  ],
  "name": "pairwise_comparison_metrics"
}