좁혀진 모델 격차, 하네스로 이동하는 승부

오늘의 흐름 정리

화요일 이후 이틀 새 AI 뉴스는 두 갈래로 모인다. 하나는 작은 오픈 모델이 벤치마크 상단으로 치고 올라오며 프런티어와의 격차가 눈에 띄게 좁혀졌다는 점이다. 다른 하나는 그 격차가 좁혀질수록 승부가 모델 자체가 아니라 모델을 감싼 하네스·규율로 옮겨가고 있다는 점이다. 본인은 이 두 흐름이 한 사건의 앞뒷면이라고 본다.

작은 모델이 리더보드를 흔든다

SWE-rebench 리더보드가 갱신되며 GLM-5.2, Qwen3.6-27B, Qwen3.6-35B-A3B, Gemma 4 31B 등 상대적으로 가벼운 오픈 모델이 한꺼번에 표에 올라왔다. 파라미터 규모가 곧 성능이라는 통념이 흔들리는 장면이다. 커뮤니티에서도 “작은 모델이 오히려 큰 모델보다 똑똑한 것 같다”는 관찰이 공감을 얻었고, Sonnet 5·Fable 5·GPT-5.5·Gemini를 같은 원샷 과제로 나란히 세운 비교에서도 상위 라인들의 결과 차가 예전만큼 크지 않았다. 상향 평준화가 진행 중이다.

승부는 하네스와 규율로 옮겨간다

격차가 좁혀지면 남는 변수는 모델을 어떻게 굴리느냐다. 한 사용자는 Qwen3.6-27B를 3-비평자(critic) 하네스로 돌려본 뒤 “하네스가 생각보다 훨씬 중요했다”고 적었다. 같은 맥락에서 “AGENTS.md 한 파일이 코딩 에이전트를 실제로 쓸모 있게 만든다”는 글이 주목받았고, arXiv에는 자율 코딩 에이전트의 엔지니어링 규율을 측정하는 RigorBench가 올라왔다. doordash는 장기 실행 코딩 에이전트를 관리하는 터미널 오케스트레이터를 공개했다. 관심이 실무 성숙으로 옮겨가는 신호도 잇따른다. 프로덕션 에러를 코딩 에이전트에 붙여 넣기 전에 정제하느냐를 두고 오간 논의가 그렇고, GeekNews에 걸린 클로드 코드 창시자의 “AI 시대 다섯 가지 일하는 사람의 원형” 담론도 도구가 아니라 사람이 도구를 어떻게 두르느냐로 초점을 옮긴다. 모델을 감싸는 지침·검증·오케스트레이션이 곧 제품 경쟁력이 되는 흐름이다.

한 줄 정리

모델 격차가 좁혀질수록 승부는 모델 밖 하네스로 이동한다. 본인은 이번 주의 리더보드 소식보다, 그 모델을 무엇으로 감싸느냐는 물음이 더 오래 남을 것이라고 본다.

오늘의 흐름 정리

작은 모델이 리더보드를 흔든다

승부는 하네스와 규율로 옮겨간다

한 줄 정리

댓글 남기기 응답 취소