Chapter 02 · Technical Performance

기술 성능

원본 pp. 69126

리드

2025년 AI 성능 지표는 두 가지 방향에서 동시에 흔들렸다. 한쪽에서는 최상위 모델이 서로 구별되지 않을 만큼 좁아졌다. Arena 리더보드 기준 상위 4개사가 25 Elo 안에 몰렸고, SWE-bench Verified는 인간 기준선의 60%에서 100%에 닿는 데 1년이 걸리지 않았다. 다른 한쪽에서는 벤치마크 자체의 수명이 짧아졌다. 포화된 지표를 내놓기 바쁘게 새 지표가 만들어지고, 또 몇 달 만에 다시 포화된다.

그러나 잘하는 일과 못하는 일의 격차는 그대로다. Gemini Deep Think가 국제수학올림피아드 금메달 점수를 따낸 같은 해, 같은 모델 계열이 아날로그 시계를 맞게 읽는 비율은 90.1%였다. 사람이 90.1%를 맞히는 일이다. 리포트는 이를 "들쭉날쭉한 지능"이라 부른다.

핵심 수치

  • 25 Elo — 상위 4개사(Anthropic·xAI·Google·OpenAI) Arena 점수 격차. 출처: PDF p.78
  • 60 → 100% — SWE-bench Verified 톱 점수 1년 변동. 출처: PDF p.75
  • 12 → 66.3% — OSWorld 에이전트 과제 성공률 상승. 출처: PDF p.72
  • 12% — 실환경 가정 작업에서 로봇 성공률. 출처: PDF p.72

주장 1 — 최상위 모델은 서로 구별되지 않는다

Chatbot Arena 상위 모델 — 25 Elo 안에 수렴

Stanford HAI, AI Index 2026 (p.78, Fig 2.1.4)

2026년 3월 Arena 기준 Anthropic(Claude Opus 4.6)이 1,503점으로 1위, xAI 1,495점, Google(Gemini 3 Pro) 1,494점, OpenAI 1,481점이 뒤를 잇는다. 상위 네 개 공급자의 격차가 25 Elo 이내. 그 아래 Alibaba 1,449, DeepSeek 1,424, Mistral 1,416, Meta 1,335이 이어진다.

상위 모델이 평균 사용자의 블라인드 비교에서 서로 분간되지 않는다는 의미다. 이 국면에서 경쟁 변수는 원점수가 아니라 비용, 응답 지연, 프롬프트 일관성, 도메인 적합성이다. 엔터프라이즈 조달에서 "가장 강한 모델 1등" 기준이 의미를 잃고 있다는 뜻이기도 하다.

주장 2 — 미중 격차는 한 번 닫혔다가 다시 벌어졌다

미중 최상위 모델 격차 — 2025→2026

Stanford HAI, AI Index 2026 (p.77, Fig 2.1.3)

2025년 2월, DeepSeek-R1이 최고 미국 모델(o1)과 사실상 동률에 올라섰다. Arena 격차는 2.70 (Mar 2026 (Claude Opus 4.6 vs Dola-Seed-2.0)) 수준이었다. 1년 뒤 2026년 3월, Claude Opus 4.6과 Dola-Seed-2.0 사이 격차는 다시 2.7%로 벌어졌다.

단순한 국가 레이스는 아니다. 딥식의 효율 지향 훈련 레시피가 전 업계에 영향을 남겼고, 오픈웨이트 커뮤니티가 빠르게 그 기법을 흡수했다. 결과적으로 같은 자원으로 낼 수 있는 최대 성능의 천장이 올라갔다. 격차의 재확대 자체보다, 격차가 반년 단위로 반전될 수 있다는 사실이 구조 변화다.

주장 3 — 오픈웨이트는 닫혔다가 다시 벌어졌다

오픈 · 클로즈 모델 격차 재개

Stanford HAI, AI Index 2026 (p.76, Fig 2.1.2)

클로즈·오픈 성능 격차는 2023년 5월 15.2%p에서 2024년 8월 0.5%p까지 좁아졌다가, 2026년 3월 기준 3.4%p로 다시 벌어졌다.

2024년 여름의 '오픈이 따라잡았다'는 서사는 조기에 종결됐다. 하지만 오픈웨이트의 경쟁력 자체는 예전과 비교할 수 없이 강해졌다. 몇 년 전만 해도 20%p 이상 벌어져 있던 격차가 한 자릿수 안에서 왕복한다는 사실 자체가 시장 구조 변화다. 규제·보안·주권 이유로 오픈웨이트를 선호하는 수요가 실제 사용 가능한 성능을 확보했다는 의미이기도 하다.

주장 4 — 에이전트는 한 해에 12%에서 66%로 뛰었다

OSWorld — AI 에이전트 정확도 12% → 66.3%

+54.3pp

Stanford HAI, AI Index 2026 (p.72)

OSWorld 벤치마크에서 AI 에이전트 성공률은 1년 사이 12%에서 66.3%로 올라갔다. 사람 성능까지는 약 6%p가 남았다. 같은 기간 SWE-bench Verified는 60%에서 100% 근처로 포화됐다.

수치가 말하는 것은 AI가 '질문에 답하는 도구'에서 '작업을 끝내는 도구'로 넘어갔다는 점이다. 특히 화면 조작, 파일 다루기, API 호출 같은 구체적 워크플로는 에이전트가 반복 가능한 수준까지 올라왔다. 단 세 번 중 한 번은 여전히 실패한다 — 자율 실행을 전제로 한 제품 설계에서 이 실패율은 결코 작지 않다.

주장 5 — 시뮬과 실환경 사이 77%p 간극

로봇 — 실환경 12% vs 시뮬 89.4%

Stanford HAI, AI Index 2026 (p.72)

로봇 조작은 시뮬레이션(RLBench)에서 89.4% 성공률에 닿았지만, 실제 가정 환경에서는 12%에 그친다. 조명, 배치, 표면 재질, 사람의 불예측 움직임 같은 '실세계 노이즈'가 얼마나 큰 변수인지 보여주는 숫자다.

한편 자율주행은 확실히 스케일에 진입했다. Waymo는 미국 다섯 개 도시에서 주당 약 45만 회, Apollo Go는 중국에서 완전 무인 주행 1,100만 회를 한 해에 수행했다 — 전년 대비 +175%다. 즉 구조화된 도로는 실용 단계, 비구조화된 가정은 연구 단계로 선이 그어졌다.


Korea Context (제한적 언급)

  • 본 챕터 모델 랭킹·벤치마크에서 한국 개별 모델은 상위에 등장하지 않는다. 다만 로봇 파트의 휴머노이드 제조사 목록에 **Rainbow Robotics(RB-Y1)**와 LG Electronics가 한국 기업으로 이름이 올라가 있다.
  • 한국어·문화 특화 LLM과 벤치마크는 Chapter 03(책임있는 AI)의 언어·문화 특화 사례 파트에서 다룬다. 한국 AI 하드웨어·LLM 전경을 묶어서 보는 시각은 Korea Focus에서.

→ 한국의 AI 하드웨어·모델 전경은 Korea Focus #tech


So What?

  1. 벤치마크 수명은 몇 달 단위로 짧아졌다. 조달·평가 기준을 현재 지표에만 묶어두면 발주 시점과 운영 시점 사이에 기준이 낡는다. 평가 갱신 주기를 제품 주기와 맞춰야 한다.
  2. 제품 경쟁은 성능이 아니라 비용·지연·신뢰성·도메인 최적화로 이동했다. 같은 성능대에서 '누가 더 싸고, 빨리, 정확하게 답하느냐'가 구매 결정을 좌우한다.
  3. 실세계 적용의 승부처는 구조화된 환경이다. 자율주행·코드 생성·문서 업무처럼 경계가 명확한 업무는 빠르게 실용화되고, 가정·진료·현장 작업은 신뢰 수준에 도달하지 못했다. 한국 맥락에서 수직 통합형 전략의 의미는 Korea Focus에서 이어 본다.

원본 참조: Stanford HAI, AI Index Report 2026, Chapter 2 (Technical Performance), pp. 69–126.