Claude Opus 4.7 출시, 벤치마크·새 기능·마이그레이션 핵심 정리

Q: Q1. Claude Opus 4.7은 어떻게 사용할 수 있나요?

Claude.ai 웹과 모바일 앱, Claude API(모델 ID claude-opus-4-7), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 모두 사용할 수 있습니다. Claude Pro, Max, Team, Enterprise 플랜 사용자는 대화창의 모델 선택 메뉴에서 바로 전환할 수 있고, API를 쓰는 개발자라면 별도 신청 없이 모델 문자열만 변경하면 됩니다. GitHub Copilot Pro+/Business/Enterprise 사용자도 Copilot 내부 모델 선택기에서 선택할 수 있습니다.

2026년 4월 16일, Anthropic이 Claude Opus 4.7을 공개했습니다. 같은 날 전 세계 AI 인프라에서 모델 전환이 시작됐고, GitHub Copilot의 모델 선택기에서도 Opus 4.5·4.6이 순차적으로 Opus 4.7로 대체된다는 공지가 올라왔습니다. Opus 4.7 will replace Opus 4.5 and Opus 4.6 in the model picker for Copilot Pro+.

이번 릴리스의 가장 큰 특징은 **”가격은 그대로, 코딩 성능만 뛰어오른 업그레이드”**라는 점입니다. 하지만 토크나이저가 바뀌고 지시사항 해석 방식도 엄격해졌기 때문에 기존 Opus 4.6 프롬프트를 그대로 쓰면 결과가 달라질 수 있습니다. 이 글에서는 무엇이 바뀌었는지, 벤치마크 숫자가 실무에서 어떤 의미를 갖는지, 그리고 마이그레이션할 때 점검해야 할 포인트를 개발자 관점에서 정리합니다.

Claude Opus 4.7에서 달라진 핵심은 무엇인가요?

Claude Opus 4.7은 Anthropic이 상용으로 제공하는 가장 강력한 모델입니다. 직전 버전인 Opus 4.6과 비교해 세 가지 축에서 개선됐습니다.

첫째, 코딩 성능이 한 단계 올라갔습니다. 특히 다중 파일 리팩토링과 장기 실행 작업(long-running tasks)에서 이전 모델이 중간에 놓치던 논리적 결함을 계획 단계에서 스스로 잡아내는 식의 개선이 보고됩니다. 둘째, 비전(vision) 해상도가 크게 확장됐습니다. Opus 4.7은 긴 변 기준 최대 2,576픽셀(약 3.75메가픽셀) 이미지를 수용합니다. 이전 Claude 모델 대비 약 3.3배 해상도입니다. 셋째, 새로운 추론 레벨과 제어 수단이 추가됐습니다. xhigh라는 신규 effort 레벨과 task budgets(공개 베타), Claude Code의 /ultrareview 명령어가 함께 릴리스됐습니다.

가격은 $5/$25(입력/출력 100만 토큰당 달러)로 Pricing remains the same as Opus 4.6: $5 per million input tokens and $25 per million output tokens 유지됩니다. 단, 토크나이저가 새로 바뀌면서 동일한 입력이 더 많은 토큰으로 변환될 수 있다는 점은 뒤에서 다시 설명합니다.

벤치마크 점수는 얼마나 올랐나요?

숫자부터 보면 다음과 같습니다.

벤치마크	Opus 4.6	Opus 4.7	변화
SWE-bench Verified (실제 GitHub 이슈 해결)	80.8%	87.6%	+6.8%p
SWE-bench Pro (더 어려운 문제 집합)	53.4%	64.3%	+10.9%p
CursorBench (IDE 자동 멀티파일 편집)	58%	70%	+12%p
Terminal-Bench 2.0 (CLI·devops 작업)	65.4%	69.4%	+4%p
GPQA Diamond (대학원 수준 추론)	91.3%	94.2%	+2.9%p
Finance Agent (금융 에이전트 작업)	60.7%	64.4%	+3.7%p

Claude Opus 4.7과 Opus 4.6, GPT-5.4, Gemini 3.1 Pro의 SWE-bench Pro, CursorBench, GPQA Diamond 벤치마크 점수 비교 차트 — SWE-bench Pro에서 Opus 4.7은 64.3%로 경쟁 모델을 앞섰지만, GPQA Diamond는 세 모델이 94% 부근에서 수렴한다.

경쟁 모델 기준을 보면 차이가 더 선명해집니다. SWE-bench Pro에서 Opus 4.7의 64.3%는 GPT-5.4의 57.7%, Gemini 3.1 Pro의 54.2%를 앞선 수치입니다. 반면 일반 지식 추론인 GPQA Diamond에서는 세 모델 모두 94%대에 수렴해 의미 있는 차이를 만들기 어려워졌습니다.

한 가지 주의할 점은, Anthropic 내부에는 이보다 더 강력한 Mythos Preview라는 미공개 모델이 있다는 사실입니다. 사이버보안 위험 때문에 일부 선별된 기업에만 제공되고 있습니다. it is less broadly capable than our most powerful model, Claude Mythos Preview라고 Anthropic 스스로 명시했듯이, Opus 4.7은 “공개된 최강”일 뿐 절대 성능에서는 내부 상한이 더 높다는 점을 전제로 봐야 합니다.

개발자가 실무에서 체감할 만한 변화는 무엇인가요?

숫자가 실무에 주는 의미를 네 가지로 풀면 아래와 같습니다.

1. 지시사항 해석이 엄격해졌습니다. Opus 4.7은 프롬프트를 더 문자 그대로(literal) 받아들입니다. 4.6까지 느슨하게 해석되던 지시가 4.7에서는 정확히 실행되기 때문에, 기존 프롬프트를 그대로 쓰면 오히려 예상과 다른 출력을 낼 수 있습니다. 저는 처음 이 변화를 접했을 때 가벼운 테스트 프롬프트에서 주석 스타일이 완전히 달라져서 당황했던 기억이 있습니다. “파일에 주석을 달아줘”라고만 쓰던 걸 “주요 함수마다 JSDoc 형식으로 3줄 주석을 달아줘”로 구체화하니 결과가 안정됐습니다.

2. 자기 검증(self-verification) 능력이 눈에 띕니다. 에이전트 워크플로에서 작업을 끝냈다고 보고하기 전에 스스로 결과를 한 번 더 확인하는 경향이 강해졌습니다. Intuit는 “계획 단계에서 스스로 논리적 결함을 잡아낸다”는 피드백을 남겼고, Vercel 엔지니어링 팀은 “시스템 코드에 대해 작업 시작 전에 증명(proof)을 먼저 수행한다”는 새로운 행동을 관찰했다고 밝혔습니다.

3. 멀티모달 분석이 훨씬 쓸만해졌습니다. XBOW는 자사의 시각 정확도 벤치마크에서 98.5% on our visual-acuity benchmark versus 54.5% for Opus 4.6라는 큰 격차를 보고했습니다. 화학 구조식, 복잡한 기술 다이어그램, 조밀한 UI 스크린샷 등 픽셀 단위 디테일이 중요한 작업에서 정확도가 크게 올라간 셈입니다. 컴퓨터 사용(computer-use) 에이전트를 만드는 팀이라면 이 변화가 가장 직접적으로 체감될 영역입니다.

4. 같은 품질을 더 적은 비용으로 얻을 수 있습니다. Hex의 CTO는 “low effort Opus 4.7이 medium effort Opus 4.6과 거의 같은 수준”이라고 언급했습니다. 즉, 효어트 레벨을 한 단계 낮추고도 비슷한 결과를 얻을 수 있다는 뜻이므로, 잘 튜닝하면 운영 비용이 내려갈 여지가 있습니다.

새로운 xhigh 효어트 레벨과 /ultrareview는 무엇인가요?

Opus 4.7과 함께 출시된 제어 도구 세 가지가 있습니다.

xhigh effort 레벨

기존 effort 레벨은 low → medium → high → max 순서였는데, 이번에 xhigh(extra high)가 high와 max 사이에 추가됐습니다. max의 전체 지연을 감수하지 않고도 high보다 더 깊은 추론이 필요한 문제에 쓰라는 의도입니다. Claude Code는 모든 플랜에서 기본값이 xhigh로 상향됐습니다. Anthropic도 코딩과 에이전트 용도라면 we recommend starting with high or xhigh effort이라고 권장합니다.

Claude Opus 4.7의 low, medium, high, xhigh, max effort 레벨별 추론 깊이와 응답 속도 트레이드오프를 보여주는 다이어그램 — xhigh는 high와 max 사이에 새로 추가된 레벨로, 추론 품질과 응답 속도 사이의 균형을 세밀하게 조절할 수 있다.

task budgets (공개 베타)

개발자가 Claude의 토큰 사용량을 가이드해 긴 작업 동안 자원을 어디에 집중할지 조절할 수 있는 기능입니다. 여러 단계로 이어지는 에이전트 작업에서 “이 단계에는 분석에 더 많은 토큰을 쓰고, 마무리 단계는 짧게 끝내라”는 식의 힌트를 줄 수 있습니다.

/ultrareview 슬래시 명령어

Claude Code에 추가된 전용 코드 리뷰 세션입니다. 변경 내역을 차분히 훑어가며 꼼꼼한 리뷰어가 잡아낼 만한 버그와 설계 이슈를 플래그합니다. Pro와 Max 플랜 사용자에게 ultrareview 3회가 무료로 제공됩니다. 또 Max 사용자에게는 auto mode(Claude가 사용자 대신 권한 결정을 내려 긴 작업을 중단 없이 실행)가 확대 적용됐습니다.

Opus 4.6에서 4.7로 마이그레이션할 때 주의할 점은?

“그냥 모델 ID만 바꾸면 된다”고 생각하면 곤란합니다. 가격은 같아도 토큰 사용량과 출력 방식이 달라졌기 때문입니다. Anthropic이 공식적으로 강조한 주의사항은 세 가지입니다.

첫째, 새 토크나이저가 적용됐습니다. 동일한 입력이 약 1.0~1.35배 많은 토큰으로 매핑될 수 있습니다. 영문 위주 기술 문서보다 한국어나 다국어 혼합 콘텐츠에서 배율이 더 커지는 경향이 있다는 보고가 있으므로, 프로덕션 환경이라면 실제 트래픽으로 비용 시뮬레이션을 다시 돌려보는 편이 안전합니다.

둘째, 높은 effort 레벨에서 출력 토큰이 더 많이 발생합니다. 특히 에이전트 상황에서 후반 턴으로 갈수록 Opus 4.7이 더 깊게 사고하는 경향이 있어 응답이 길어질 수 있습니다. effort 레벨을 낮추거나 “간결하게” 프롬프트를 섞어 제어할 수 있습니다.

셋째, 앞서 말했듯 지시사항 해석이 엄격해졌으므로 기존 프롬프트가 예상과 다르게 동작할 수 있습니다. 샘플 트래픽으로 A/B 테스트를 권장합니다.

API 호출 자체는 간단합니다. 모델 ID만 claude-opus-4-7로 바꾸면 됩니다.

python

from anthropic import Anthropic

client = Anthropic()

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=4096,
    messages=[
        {
            "role": "user",
            "content": "Next.js 15 앱의 빌드 시간을 단축할 방법을 제안해주세요.",
        }
    ],
)

print(response.content)

사용 가능한 채널은 Claude.ai 웹/모바일, Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry입니다. GitHub Copilot Pro+, Business, Enterprise 사용자도 모델 선택기에서 직접 고를 수 있습니다.

더 자세한 마이그레이션 가이드는 Anthropic 공식 마이그레이션 문서에서 확인할 수 있고, 전체 벤치마크와 안전성 평가는 Claude Opus 4.7 공식 발표 블로그와 System Card에 공개돼 있습니다. 또한 코딩 성능 변화가 장기 프로젝트에 어떤 영향을 주는지 궁금하다면 제가 이전에 쓴 TypeScript를 도입하면 정말 버그가 줄어들까?와 Claude Dispatch 완전 가이드도 함께 읽어보면 도움이 됩니다.

자주 묻는 질문(FAQ)

Q1. Claude Opus 4.7은 어떻게 사용할 수 있나요?

Claude.ai 웹과 모바일 앱, Claude API(모델 ID claude-opus-4-7), Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 모두 사용할 수 있습니다. Claude Pro, Max, Team, Enterprise 플랜 사용자는 대화창의 모델 선택 메뉴에서 바로 전환할 수 있고, API를 쓰는 개발자라면 별도 신청 없이 모델 문자열만 변경하면 됩니다. GitHub Copilot Pro+/Business/Enterprise 사용자도 Copilot 내부 모델 선택기에서 선택할 수 있습니다.

Q2. Opus 4.7과 GPT-5.4 중 어느 쪽이 더 좋은가요?

용도에 따라 다릅니다. 코딩 작업에서는 Opus 4.7이 유리합니다. SWE-bench Pro에서 64.3%와 57.7%로 Opus 4.7이 앞서고, CursorBench에서도 70%로 선두입니다. 반면 웹 리서치 벤치마크인 BrowseComp에서는 GPT-5.4가 우위입니다. 대학원 수준 지식 추론인 GPQA Diamond에서는 두 모델 모두 94%대로 사실상 차이가 없습니다. 제 경우에는 긴 코드 생성과 멀티파일 리팩토링에는 Opus 4.7을 쓰고, 외부 웹 검색이 많은 조사 작업에는 다른 도구를 병행하는 방식으로 분리해서 사용합니다.

Q3. Opus 4.6에서 Opus 4.7로 바로 업그레이드해도 괜찮나요?

대부분 가능하지만 두 가지 점검이 필요합니다. 첫째, 새 토크나이저 때문에 같은 입력이 최대 1.35배 많은 토큰을 쓸 수 있으므로 월간 비용 시뮬레이션을 다시 해보는 게 좋습니다. 둘째, 지시사항을 더 엄격하게 해석하므로 4.6용으로 느슨하게 작성된 프롬프트는 다른 결과를 낼 수 있습니다. 프로덕션 트래픽이 많은 서비스라면 일부 트래픽에 먼저 A/B 테스트를 적용해 품질과 비용 변화를 확인한 뒤 전면 전환하는 편이 안전합니다.

Q4. Mythos Preview는 무엇이고 왜 일반에 공개되지 않나요?

Mythos Preview는 Anthropic 내부에서 Opus 4.7보다 더 강력하다고 평가한 모델입니다. 사이버보안 관점의 위험 때문에 일부 선별된 조직에만 제공되고 있고, Project Glasswing이라는 보안 이니셔티브를 통해 안전장치를 먼저 테스트하고 있습니다. Anthropic은 Opus 4.7 같은 덜 강력한 모델에 안전장치를 먼저 검증한 뒤, 단계적으로 Mythos급 모델을 더 넓은 범위에 공개한다는 계획을 밝혔습니다. 당분간 일반 사용자가 직접 Mythos Preview를 사용할 가능성은 낮다고 보는 편이 현실적입니다.

마무리

Claude Opus 4.7은 “같은 가격, 더 나은 코딩과 자기 검증”이라는 한 줄로 요약됩니다. 벤치마크 수치만 보면 점진적 업그레이드처럼 보이지만, 장기 실행 에이전트와 멀티모달 작업에서의 실질적 체감 변화는 꽤 큽니다. 동시에 토크나이저와 지시사항 해석의 변화 때문에 마이그레이션 전에는 반드시 비용·품질 테스트를 거쳐야 합니다.

개인적으로 가장 기대하는 부분은 /ultrareview입니다. 혼자 작업하는 사이드 프로젝트에서 믿을 만한 코드 리뷰어를 구하기 어려운 분들에게 특히 쓸 만할 도구라고 봅니다.

Tags: 2026 AI 모델 Anthropic Claude Claude Code LLM Opus 4.7 SWE-bench 코딩 AI

관련 소식

Bun vs Node.js 2026: Anthropic 인수 후, 이제 정말 교체할 타이밍인가?

MCP 서버 직접 만들기: 내 도구를 Claude/Cursor에 연결하는 5단계 실전 가이드

CSS Scroll-Driven Animations로 JavaScript 없이 스크롤 애니메이션 만들기 (2026 가이드)