[AI 트렌드 브리핑] 2026-06-02 — 하네스의 시대, 로컬 추론의 부활

오늘의 흐름 정리

지난 한 주의 AI 뉴스는 두 축으로 정리된다. 하나는 모델 자체가 아니라 모델을 둘러싼 “하네스(harness)”가 결과를 가른다는 인식이 한 단계 더 굳어졌다는 점이고, 다른 하나는 정반대 방향에서 10년 된 Xeon으로 26B 모델을 굴리고 중고 V100 한 장으로 27B 모델을 32 tok/s로 돌렸다는 보고가 동시에 떠올랐다는 점이다. 본인은 이 두 흐름이 “추론 단가는 빠르게 바닥으로 향하고, 그 위에 무엇을 얹느냐가 가치를 결정한다”는 한 문장에서 만난다고 본다.

하네스 시대의 개막 — 모델 바깥이 결과를 가른다

이번 주 화두는 GeekNews 상위에 올라온 AI 이후의 소프트웨어: 하네스 시대의 개막 한 편이 정리한다. 골자는 단순하다. 모델 가중치는 빠르게 상품(commodity)이 되고 있고, 소프트웨어의 성패는 그 주변에 두른 컨텍스트 검색·도구 호출·오케스트레이션·관측·비용 제어 — 즉 “하네스” — 의 품질로 갈린다는 것이다.

같은 주 GitHub 트렌딩 상위에는 anthropics/skills 공개 저장소가 올라왔다. Agent Skills라는 단위로 에이전트의 행동 절차를 외부 모듈로 떼어내 공유 가능한 자산으로 끌어올린 시도다. 비슷한 시기에 EveryInc/compound-engineering-plugin이 떴는데, Claude Code, Codex, Cursor를 모두 대상으로 하는 “공식” Compound Engineering 플러그인이다. 한 주 안에 cursor/plugins까지 자체 명세와 1차 플러그인 셋을 공개했다. 본인은 이게 한 해 전 LSP가 에디터 시장을 평탄화했던 흐름과 같은 단계로 본다 — 모델은 다르되 플러그인 인터페이스는 같다.

메타-스킬과 서브에이전트 — 하네스의 위층

하네스의 두 번째 층은 “스킬을 만드는 스킬”과 “에이전트를 만드는 에이전트”다. 한국 개발자가 만든 revfactory/harness가 이 지점을 정확히 가리킨다. 도메인을 입력하면 그 도메인 전문 에이전트 팀을 자동 설계하고, 그 팀이 쓸 스킬까지 함께 생성하는 메타-스킬이다. 본인은 이게 anthropics/skills가 깔아둔 표준 위로 한 칸 더 올라간 자연스러운 다음 수라고 본다.

같은 흐름의 또 다른 보고는 can1357/oh-my-pi다. “최적화된 도구 하네스”를 전면에 내건 터미널 코딩 에이전트로, 해시 앵커 편집·LSP·브라우저 통합·서브에이전트 위임을 한 번에 묶었다. 한국발 트레이스 관측 플랫폼 Spanlens, AI 에이전트용 파일 검색 툴킷 dmtrKovalenko/fff까지 묶어 보면 하네스 각 슬롯마다 전용 부품이 빠르게 분화하는 중이다.

저비용 로컬 추론 — 추론 단가는 바닥을 향한다

다른 한 축은 비용이다. 같은 주 Hacker News 상위에 두 글이 나란히 올랐다. 첫째는 A 10 year old Xeon is all you need다. 2016년산 구형 Xeon 한 대 위에서 컴파일러 최적화만으로 Gemma 4 26B 모델을 GPU 없이 굴렸다는 보고다. 둘째는 I Put a Datacenter GPU in My Gaming PC for £200이다. 중고 Tesla V100을 약 20만 원에 끼워 32GB VRAM을 확보하고 27B 로컬 LLM을 32 tok/s로 돌렸다는 실사례다.

본인은 이 두 글을 단순한 잘난 척으로 보지 않는다. 이런 글이 동시기에 같은 커뮤니티 상위에 올랐다는 사실 자체가 시장의 답답함이 임계치에 닿았다는 신호다. 위 하네스 흐름과 합치면 그림이 명확해진다 — 비싼 부분은 로컬로 내리고, 그 위에 얇은 클라우드 하네스를 얹는 구성이 현실적인 다음 수다.

오픈 가중치와 다언어 음성, 그리고 도메인이라는 진짜 해자

세 번째 보조 흐름은 오픈 가중치 쪽이다. p-e-w/heretic이 언어 모델 검열(refusal) 레이어 자동 제거 도구로 트렌딩 상위에 올랐다. 본인은 이 도구의 윤리적 함의보다, “오픈 가중치는 진짜로 내 손에 있다”는 감각이 1만 점대까지 표로 굳어졌다는 점이 더 중요하다고 본다. 같은 주 음성 쪽에서는 OpenBMB/VoxCPM과 OpenMOSS/MOSS-TTS가 동시에 떴다. 전자는 토크나이저 없는 다언어 음성 생성과 보이스 클로닝을, 후자는 오픈 음성·사운드 생성 계열을 묶었다.

마지막 한 칸은 판단의 무게중심이다. 도메인 전문성은 언제나 진짜 해자였다는 AI가 코딩을 떠맡는 시대에 묶이는 자원은 “만들 수 있느냐”가 아니라 “그게 맞는지 판별할 수 있느냐”라고 짚는다. 곁들이는 지루한 기술을 선택하라, Revisited (2025)는 AI가 낯선 스택의 그럴듯한 코드를 술술 뱉어내는 시대일수록 본인이 직접 리뷰할 수 있는 익숙한 스택을 고수하라고 권한다.

한 줄 정리

지난 한 주는 모델보다 모델 바깥(하네스)이 가치를 만들고, 동시에 추론은 점점 더 싸고 더 가까이로 내려온다는 두 흐름이 같은 박자로 부각된 주였다. 본인은 다음 분기 안에 “표준 하네스 위에 로컬 추론을 얹는” 구성이 평범한 선택지가 될 거라고 본다.