Djob News

"화면을 보고, 클릭하고, 파일을 열고, 터미널을 실행한다."

이 문장이 인간의 행동 묘사가 아닌 AI 성능 설명이 된 시대가 왔다. OpenAI가 2026년 3월 5일 공개한 GPT-5.4는 데스크톱 자율 조작 벤치마크인 OSWorld-Verified에서 75.0%를 기록하며, 인간 전문가 기준선 72.4%를 처음으로 넘어섰다. 단순한 수치 업데이트가 아니다. AI가 '대화 상대'에서 '운영자'로 전환하는 분기점이다.

챗봇의 시대는 끝났다

AI 발전사를 돌아보면, 지금까지의 경쟁은 '얼마나 잘 대답하는가'에 집중돼 있었다. GPT-4, Claude 3, Gemini 1.5 — 모두 텍스트 생성과 추론 능력으로 경쟁했다. 그러나 GPT-5.4는 질문이 다르다. "얼마나 스스로 일을 처리하는가."

OSWorld-Verified 벤치마크는 AI 모델이 파일 탐색, 브라우저 조작, 터미널 인터페이스 사용, 생산성 소프트웨어 제어 등 실제 데스크톱 작업을 얼마나 자율적으로 완수하는지를 측정한다. 이 테스트에서 인간 전문가들이 세운 기준선은 72.4%. 클로드 오퍼스 4.6이 2026년 2월 72.7%로 기준선을 간신히 넘었고, 전문 에이전트 프레임워크인 Agent S도 72.6%를 기록한 바 있지만, GPT-5.4의 75.0%는 인간 수준을 명확히 웃도는 최초의 범용 모델 성과다.

GPT-5.2 대비 환각(Hallucination) 발생률을 33% 줄였고, 컨텍스트 창은 100만 토큰으로 두 배 확장됐다. 코드베이스 전체, 방대한 문서 묶음을 단일 요청으로 처리하는 것이 이제 현실적인 아키텍처 옵션이 됐다는 의미다.

4개월 만에 28포인트… 가속도가 문제다

벤치마크 숫자보다 더 주목해야 할 것은 속도다. 최근 OpenAI 모델들의 OSWorld 성능 궤적을 보면, 불과 4개월 이내에 28포인트 향상이 이루어졌다. 선형 개선이 아닌 가속도적 상승 곡선이다.

GPT-5.3 Codex는 OSWorld 64%로 인간 기준선에 도달하지 못했고, '코딩 전문 모델'이라는 단일 정체성을 가졌다. GPT-5.4는 그 모든 능력을 통합하면서 컴퓨터 사용 능력을 75%까지 끌어올렸다. 스페셜리스트에서 제너럴리스트 에이전트로의 진화가 단 한 세대 만에 이뤄진 셈이다.

GPT-5.4는 지식 업무 벤치마크인 GDPval에서 83%를 기록하며 44개 직종의 전문가 수준에 도달했고, 코딩(SWE-Bench)에서는 클로드 오퍼스 4.6이 80.8%로 여전히 앞서는 등 모델별 강점은 분화 중이다. 하지만 범용 데스크톱 자율 조작이라는 실용화 기준에서만큼은 GPT-5.4가 현재 선두다.

SaaS와 RPA, 구조적 재편의 시작

이 기술이 현실 시장에 미치는 충격파는 어디서 먼저 터질까.

첫 번째 타깃은 RPA(Robotic Process Automation) 시장이다. UiPath, Automation Anywhere 등 기존 RPA 솔루션은 '규칙 기반' 자동화다. 특정 화면 좌표에 버튼이 없으면 멈추고, UI가 바뀌면 재설정이 필요하다. GPT-5.4처럼 화면을 '이해'하고 맥락적으로 판단하는 에이전트는 이 구조적 취약점을 우회한다. 규칙을 짜는 것이 아니라 지시만 하면 된다.

두 번째는 SaaS 워크플로우 자동화다. Zapier, Make(구 Integromat) 같은 연동 플랫폼은 API 통합을 전제로 한다. 그러나 API가 없는 레거시 시스템, 내부 ERP, 정부 포털은 자동화의 사각지대였다. 스크린샷과 키보드 입력만으로 작동하는 컴퓨터 사용 에이전트는 이 공백을 직접 파고든다.

물류·항만·공공 SaaS처럼 레거시 인터페이스가 혼재하는 도메인에서는 특히 파급력이 클 수 있다. 복잡한 포털 입력, 반복적 데이터 수집, 다중 시스템 연계 작업이 에이전트 위임 대상으로 부상하는 것은 시간문제다.

차세대 아키텍처 이슈: 접근 권한과 감사 로그

하지만 기회만큼 과제도 선명하다. AI가 파일을 열고, 브라우저를 조작하고, 터미널 명령을 실행한다면, 기존의 보안·컴플라이언스 설계는 전면 재검토가 필요하다.

핵심은 두 가지다.

접근 권한 설계(Access Governance): 에이전트에게 어디까지 허용할 것인가. 읽기만 허용할지, 쓰기와 실행까지 위임할지. 사용자 수준 권한 위임(User-level delegation)과 서비스 계정 분리, 최소 권한 원칙(Least Privilege)의 AI 버전 구현이 필요하다.

감사 로그 아키텍처(Audit Trail): 에이전트가 수행한 모든 조작의 재현 가능한 기록이 없으면 사고 대응과 규제 준수가 불가능하다. 어떤 화면을 봤고, 어떤 판단으로 어떤 버튼을 눌렀는지 — 이 시퀀스를 로깅하고 검증하는 구조가 엔터프라이즈 도입의 실질적 관문이 될 전망이다.

현재 에이전트 생태계는 MCP(Model Context Protocol), A2A(Agent-to-Agent), AG-UI 프로토콜을 중심으로 빠르게 표준화되는 중이며, MCP는 2026년 3월 기준 9,700만 건 이상의 설치 수를 기록하고 있다. 표준 레이어가 정립될수록, 위에서 언급한 권한·감사 아키텍처도 프레임워크 수준에서 논의될 가능성이 높다.

모델 현황과 접근 방법

GPT-5.4는 Standard($2.50/$15 per MTok), Thinking(대화형 추론), Pro($30/$180 per MTok), Mini, Nano까지 5종의 변형 모델로 제공된다. OSWorld 75%를 기록한 것은 Thinking 변형이며, 개발자와 엔터프라이즈 팀은 API를 통해 접근 가능하다. 다만 1M 토큰 컨텍스트 창은 272K 토큰 초과 시 입력 요금이 2배로 증가하는 과금 구조이며, OpenAI 자체 Graphwalks 벤치마크에서 128K 구간 대비 256K~1M 구간의 정확도가 93%에서 21.4%까지 하락하는 한계도 확인됐다. 마케팅 숫자 이면의 실운용 성능은 별도 검증이 필요하다는 점을 간과해선 안 된다.

GPT-5.2 Thinking은 2026년 6월 5일 완전 종료되며, 유료 사용자에게는 레거시 모델 섹션에서 3개월간 유지된다. 기존 자동화 파이프라인을 GPT-5.2 기반으로 운영 중인 팀이라면 마이그레이션 타임라인을 지금 설정할 필요가 있다.

에이전트 전환의 준비, 지금 시작해야 한다

GPT-5.4의 75% OSWorld 달성은 기술 시연이 아니다. 실용화 임계점이다. AI를 '쓰는' 방식이 프롬프트 입력에서 작업 위임으로 전환되는 흐름이 본격화됐다. 기업 입장에서 지금 해야 할 것은 명확하다. 반복적이고 화면 기반인 업무 프로세스를 목록화하고, 에이전트 위임 후보군을 선별하며, 권한·로그 설계를 아키텍처 논의 테이블에 올리는 것이다. 도구를 어떻게 쓸지 고민하는 기업과, 도구가 스스로 일하도록 설계하는 기업의 격차는 이제 실질적으로 벌어지기 시작했다.

챗봇은 질문에 답했다. 에이전트는 업무를 처리한다. 그 전환이, 지금 일어나고 있다.

관련 벤치마크 및 모델 업데이트 현황은 llm-stats.com에서 실시간으로 확인할 수 있다.

GPT-5.4 자율에이전트 데스크톱자동화 OSWorld벤치마크 AI운영자 RPA대체 SaaS자동화 업무자동화 AI에이전트전환 접근권한관리 감사로그 MCP프로토콜