리드
2025년은 책임있는 AI(RAI)의 양과 질이 엇갈린 해였다. 연구의 양은 빠르게 자랐다. 주요 학회에 게재된 RAI 논문은 2019년 329건에서 2025년 1,521건으로 4.6배가 됐다. 반면 사고(incident)는 같은 해에만 362건으로 전년 대비 55% 늘었고, 파운데이션 모델 투명성 지수(FMTI) 평균은 58점에서 40점으로 뒷걸음쳤다.
사고와 투명성 수치가 동시에 나빠진다는 말은 대응 능력이 기술 확산 속도를 따라가지 못하고 있다는 이야기다. 특히 가장 강한 모델을 만드는 조직이 학습 데이터·파라미터·훈련 시간 같은 핵심 정보를 공개하지 않는 추세는 2024년부터 굳어졌다. FMTI 상위권에 IBM Granite 3.3(95점)·Writer Palmyra X5(72점)처럼 상대적으로 덜 알려진 이름이 올라 있는 반면, Claude 4(46점), Gemini 2.5(41점), OpenAI o3(35점), DeepSeek-R1(32점) 같은 대형 플래그십은 중·하위에 몰려 있다.
핵심 수치
- 362건 — 2025 AIID 집계 AI 사고 (전년 233건). 출처: PDF p.132
- 435건 — 2026-01 OECD AIM 월 사고 피크. 출처: PDF p.133
- 58 → 40 — FMTI 평균 점수 1년 하락. 출처: PDF p.164
- 1,521건 — 2025 RAI 논문 (2019년 4.6배). 출처: PDF p.147
주장 1 — AI 사고는 한 해에 55% 늘었다
AI 사고 — 2025년 362건
Stanford HAI, AI Index 2026 (p.132, Fig 3.2.1)
AIID가 집계한 문서화된 AI 사고는 2024년 233건에서 2025년 362건으로 증가했다. 월 단위 피크는 2026년 1월 OECD AIM 기준 435건, 6개월 이동평균 326건. 2022년 이전에는 연간 100건이 채 되지 않던 수치다.
주의할 지점은 집계 범위가 늘어난 것인지, 사고가 실제로 늘어난 것인지 완벽히 분리되지 않는다는 점이다. AI를 쓰는 서비스가 많아지면 사고 빈도는 기계적으로 따라 오른다. 다만 기존 대비 증가율이 시스템 확산률을 웃돈다는 것이 AIID·OECD 양측 데이터에서 공통적으로 확인된다. 이는 문서화되지 않은 사고까지 포함하면 실제 수는 더 많다는 해석과 일관된다.
주장 2 — RAI 연구는 6년에 4.6배가 됐다
책임 있는 AI 논문 4.6배 증가
Stanford HAI, AI Index 2026 (p.147, Fig 3.4.1)
2019년 329건이던 주요 학회 RAI 논문 채택 수는 2025년 1,521건으로 늘었다. 2024년 1,278건에서 1년 만에 +19%, 2019년 대비 4.6배. 세부적으로 보안·안전이 641편(+23%)으로 가장 큰 세부 영역이다.
연구의 양적 성장은 분명하지만, RAI 벤치마크 보고는 여전히 드물다. 역량 벤치마크는 신제품 발표 때마다 수치가 공개되지만, 안전·공정성·프라이버시 벤치마크를 두 개 이상 보고하는 플래그십 모델은 Claude Opus 4.5뿐이다. StrongREJECT 결과를 보고한 모델은 GPT-5.2가 유일했다. **"하긴 하지만 공개는 안 한다"**는 관행이 굳어진다.
주장 3 — 중국 812건, RAI 연구 국가별 1위
RAI 논문 국가별 — 한국 8위 57건
Stanford HAI, AI Index 2026 (p.149, Fig 3.4.4)
2025년 주요 학회 RAI 논문 국가별 순위는 중국 812건, 미국 394건, 싱가포르 112건, 영국 103건, 홍콩 98건, 호주 84건, 독일 68건 순이다. 중국은 2024년 322건에서 한 해에 2.5배로 뛰었다.
중국의 급증은 안전·정렬 연구가 각국 거버넌스 의제로 진입하면서 연구 커뮤니티의 자원이 이쪽으로 몰린 결과다. 이 지형은 RAI 표준 설정의 주도권 경쟁이기도 하다. 논문 생산 국가와 기준 제정 국가가 꼭 일치하지는 않지만, 인용과 후속 연구가 누적되면서 자연스러운 영향력의 축이 된다.
주장 4 — 가장 강한 모델일수록 투명성 점수가 낮다
FMTI 평균 58 → 40 하락
Stanford HAI, AI Index 2026 (p.164, Fig 3.8.2)
FMTI 평균 점수는 2023년 37점, 2024년 58점까지 올랐다가 2025년 40점으로 급락했다. 2024년 상승은 EU AI Act 초안 발효 전후의 공개 노력이 반영된 결과로 해석되지만, 2025년 들어 상위권 기업들의 모델 카드·시스템 카드 공개 수준이 다시 얇아졌다.
개별 모델 점수를 보면 대조는 뚜렷하다. IBM Granite 3.3이 95점으로 1위, Writer Palmyra X5가 72점으로 2위. 반면 대중에게 익숙한 플래그십 쪽은 Claude 4 46점, Gemini 2.5 41점, Nova Premier 39점, OpenAI o3 35점, DeepSeek-R1 32점, Llama 4 31점, Qwen 3 26점, Midjourney V7·Grok 3 각각 14점이다. 가장 광범위하게 쓰이는 모델일수록 정보 공개가 얇다는 패턴이 읽힌다.
주장 5 — AI Safety Institute는 2차 물결로 확장 중이다
글로벌 AI 안전연구소 네트워크
Stanford HAI, AI Index 2026 (p.165, Fig 3.9.1)
완전 운영 중인 국가 AI 안전 기구(AISI)는 영국(AISI), 미국(USAISI, NIST 소속), 일본(JAISI), 싱가포르(Digital Trust Centre), 이스라엘, 인도, 프랑스 7개국이다. 2차 개발 그룹에는 캐나다·한국·독일·브라질이 이름을 올렸다. 케냐·호주는 네트워크 회원 단계다.
의미는 두 갈래다. 첫째, AI 안전 거버넌스가 '소수 선진국 클럽'에서 다국 네트워크로 확장되고 있다. 둘째, 각국 AISI가 안전 기준과 평가 방법론을 공동 개발하기 시작하면서, 공식 정부 기구가 모델 검증 과정의 실질적 주체로 올라오고 있다. 업계 자율 규제 모델이 한계를 드러낸 지점에서, 정부·민간 하이브리드 거버넌스가 현실 모델로 부상 중이다.
Korea Context
- 이 챕터에서 한국은 RAI 논문 8위(57건), AISI 2차 개발 그룹, 그리고 언어·문화 특화 모델 사례(KoBEST·HAE-RAE·Polyglot-Ko·HyperCLOVA X)로 3개 지점에서 언급됐다.
- 'RAI 양산국'은 아니지만 언어·문화 특화 평가와 제도 설계에서 세계 사례로 등재되고 있다는 점이 특이하다. AI 기본법과 AISI 준비가 동시에 움직이는 현재 맥락은 정책 창구가 열려 있는 국면으로 해석된다.
→ 한국 정책·기관 타임라인은 Korea Focus #policy
So What?
- 역량과 신뢰의 비대칭이 구조화됐다. 성능 지표는 오르고, 사고와 불투명성은 함께 커진다. 이 간극은 개별 회사의 선의로 메워지지 않는다.
- 조직 내 RAI 거버넌스는 양적으로 성장했다. 정책이 없는 기업 비율은 24%에서 11%로 절반 넘게 줄었지만, 지식·예산·규제 불확실성이 여전한 3대 장애다.
- 언어·문화 특화 평가는 '누가 기준을 만드느냐'의 문제다. HELM Arabic에서 지역 모델이 GPT-5.1·Gemini 2.5 Flash를 앞섰다는 사실은 단순한 성능 이슈가 아니라 평가 체계의 문화 종속성 이슈다. 한국어 기반 RAI 체계가 국제 리포트에 공식 인용됐다는 점은 Korea Focus에서 이어 본다.
원본 참조: Stanford HAI, AI Index Report 2026, Chapter 3 (Responsible AI), pp. 127–171.