記事公開日 2026/02/18

【Claude Sonnet 4.6】Anthropicの最新モデルで脆弱性評価させてみた！

Kiro

この記事のポイント

Anthropic社の最新モデル「Claude Sonnet 4.6」がリリースされました。AWS Kiroでも利用可能になった本モデルの性能とコストパフォーマンス、そして実務での活用可能性について検証します。

Opus級の性能と低コスト：
旧Opusモデルに匹敵する性能を持ちながら、Sonnetシリーズ同等の低価格を実現。
コーディング能力の向上：
初期アクセスの開発者から高い評価を得ており、指示従順性が向上。
セキュリティ診断での実力検証：
脆弱性のあるCloudFormationテンプレートを用いた検証で、的確な指摘が可能かを確認。

目次

はじめに
Sonnet 4.6概要
AWS Kiroでも利用可能に
検証：脆弱性のあるIaCコードを指摘させる
まとめ

はじめに

DXソリューション営業本部の三浦です。

生成AI界隈で常に注目を集めるAnthropic社から、新たなモデル「Claude Sonnet 4.6」がリリースされました。
今回のアップデートでは、最上位モデルであるOpusシリーズに迫る高性能を持ちながら、Sonnetシリーズ特有の低コストかつ高速なレスポンスを維持している点が大きな特徴です。

そこで今回は、私たちが活用しているAWS製のIDE「Kiro」でも本モデルがいち早く利用可能になったことを受け、その実力を検証してみました。脆弱性診断などの実務的なタスクでどこまで通用するのか、具体的なコードを用いてその挙動を確認していきます。

Sonnet 4.6概要

Sonnet 4.6は、より多くのユーザーに大幅に向上したコーディングスキルをもたらします。
一貫性や指示への従順性などが改善され、早期アクセスを利用した開発者は、前バージョンよりもSonnet 4.6を大差で好む傾向にあります。
また、2025年11月時点での最上位モデルであるClaude Opus 4.5よりも好まれるケースも多くなっています。

詳細：https://www.anthropic.com/news/claude-sonnet-4-6

モデルごとのベンチマーク比較

項目	Sonnet 4.6	Opus 4.6	Opus 4.5	Sonnet 4.5	Gemini 3 Pro	GPT-5.2 (all models)
コーディング能力
エージェント型ターミナルコーディング (Terminal-Bench 2.0)	59.1%	65.4%	59.8%	51.0%	56.2%	64.7%
エージェント型コーディング (SWE-bench Verified)	79.6%	80.8%	80.9%	77.2%	78.0%	80.0%
エージェント操作・ツール利用
エージェント型コンピュータ操作 (OSWorld-Verified)	72.5%	72.7%	66.3%	61.4%	—	38.2%
エージェント型ツール利用 (τ2-bench)	91.7% (Retail) 97.9% (Telecom)	91.9% (Retail) 99.3% (Telecom)	88.9% (Retail) 98.2% (Telecom)	86.2% (Retail) 98.0% (Telecom)	85.3% (Retail) 98.0% (Telecom)	82.0% (Retail) 98.7% (Telecom)
大規模ツール利用 (MCP-Atlas)	61.3%	59.5%	62.3%	43.8%	54.1%	60.6%
エージェント型検索 (BrowseComp)	74.7%	84.0%	67.8%	43.9%	59.2%	77.9%
推論・実務能力
学際推論 (ツールなし) (Humanity's Last Exam)	33.2%	40.0%	30.8%	17.7%	37.5%	36.6%
学際推論 (ツールあり) (Humanity's Last Exam)	49.0%	53.0%	43.4%	33.6%	45.8%	50.0%
エージェント型財務分析 (Finance Agent v1.1)	63.3%	60.1%	58.8%	54.5%	55.2%	59.0%
オフィス業務 (GDPval-AA Elo)	1633	1606	1416	1276	1201	1462
新規問題解決 (ARC-AGI-2)	58.3%	68.8%	37.6%	13.6%	31.1%	54.2%
大学院レベル推論 (GPQA Diamond)	89.9%	91.3%	87.0%	83.4%	91.9%	93.2%
視覚・多言語対応
視覚的推論 (MMMU-Pro: with tools)	75.6%	77.3%	73.9%	68.9%	—	80.4%
多言語Q&A (MMMLU)	89.3%	91.1%	90.8%	89.5%	91.8%	89.6%

AWS Kiroでも利用可能に

Sonnet 4.6は実験的モデルとして、Google、GitHub、AWS BuilderID、およびAWS IAM Identity CenterでログインするすべてのKiro Pro、Pro+、およびPowerユーザーが利用可能です。

AWS US-East-1（バージニア北部）およびAWS Europe（フランクフルト）リージョンで利用可能で、Sonnet 4.5と同様に1.3倍のクレジット倍率を特徴としており、開発作業において非常にコスト効率が良いのが特徴です。

参考リンク：
https://kiro.dev/blog/sonnet-4-6/
https://kiro.dev/changelog/models/claude-sonnet-4-6-is-now-available-in-kiro/

モデルの選択

Kiroのチャット画面から選択可能になっています。

消費クレジットの比較

各モデルのクレジット倍率は以下のようになっています。Opusと同等の性能を持ちながら従来のSonnet同等の消費係数です。

モデル名	バージョン	消費クレジット	特徴
Claude Sonnet 4.6	4.6	1.3x Credit	Opusレベルの知能を、多くのタスクで実用的に使える価格帯
Claude Opus	4.6	2.2x Credit	最新フラッグシップ。論理推論・コーディング最強
Auto	-	1x Credit	タスクに応じて自動選択

検証：脆弱性のあるIaCコードを指摘させる

意図的にセキュリティに問題のあるCloudFormationテンプレートを作成し、脆弱性を明言しない状態でレビューしてもらいました。

シナリオ1：脆弱なS3バケット

以下の脆弱性を含んだコードを使用します。

パブリックアクセスブロック設定の欠如
バケット暗号化の欠如
バージョニングの無効化
アクセスログの無効化
パブリック読み取り権限の付与
パブリックリスト権限の付与
ライフサイクルポリシーの欠如

テンプレートコードを表示（クリックして展開）

AWSTemplateFormatVersion: '2010-09-09'
Description: 'S3 Bucket Configuration Template'

Resources:
DataStorageBucket:
Type: AWS::S3::Bucket
Properties:
BucketName: !Sub 'data-storage-bucket-${AWS::AccountId}'
Tags:
- Key: Environment
Value: Production
- Key: Application
Value: DataStorage

BucketAccessPolicy:
Type: AWS::S3::BucketPolicy
Properties:
Bucket: !Ref DataStorageBucket
PolicyDocument:
Version: '2012-10-17'
Statement:
- Sid: AllowPublicRead
Effect: Allow
Principal: '*'
Action:
- 's3:GetObject'
- 's3:GetObjectVersion'
Resource: !Sub '${DataStorageBucket.Arn}/*'

- Sid: AllowPublicList
Effect: Allow
Principal: '*'
Action:
- 's3:ListBucket'
Resource: !GetAtt DataStorageBucket.Arn

Outputs:
BucketName:
Description: Name of the S3 bucket
Value: !Ref DataStorageBucket

BucketArn:
Description: ARN of the S3 bucket
Value: !GetAtt DataStorageBucket.Arn

BucketDomainName:
Description: Domain name of the S3 bucket
Value: !GetAtt DataStorageBucket.DomainName

結果

検証の結果、意図して埋め込んだ7つの脆弱性すべてを漏れなく指摘することに成功しました。
特に、「重大度（Critical / High）」を適切に分類できている点や、なぜそれが危険なのかという理由が簡潔かつ具体的に説明されている点が優れています。セキュリティ専門家でなくともリスクが直感的に理解できるレビュー内容は、実務においても有用そうです。

Credits used: 0.27
Elapsed time: 17s
contextusage 18%

Kiroによるレビュー結果を表示（クリックして展開）

セキュリティレビュー結果
このCloudFormationテンプレートは本番環境では絶対に使用してはいけません。テンプレート名に「vulnerable（脆弱）」とある通り、意図的に複数の重大なセキュリティ脆弱性が含まれています。

検出された脆弱性（ 7 件）
🔴 重大度: Critical

パブリック読み取りアクセスの許可

全世界（Principal: '*' ）に対してオブジェクトの読み取り権限を付与

機密データが誰でもアクセス可能な状態

パブリックリスト権限の付与

全世界に対してバケット内のオブジェクト一覧表示を許可

バケット内のファイル構造が丸見え

パブリックアクセスブロック設定の欠如

PublicAccessBlockConfigurationが未設定

AWSのセーフガードが機能しない

🟠 重大度: High

暗号化の無効化

BucketEncryptionが未設定

保存データが平文で保存される

バージョニングの無効化

VersioningConfigurationが未設定

誤削除や上書きからの復旧が不可能

アクセスログの無効化

LoggingConfigurationが未設定

セキュリティ監査やインシデント調査が困難

ライフサイクルポリシーの欠如

古いデータの自動削除や移行がない

コスト増加とデータ管理の問題

推奨される対応
このテンプレートは以下の用途でのみ使用可能です：
セキュリティトレーニング教材、脆弱性スキャンツールのテスト、セキュリティ監査の演習環境。
本番環境や実データを扱う環境では使用しないでください。

セキュアなS3バケットのテンプレートが必要な場合は、修正版の作成をお手伝いできます。修正版を作成しますか？

シナリオ2：過剰なIAMロール

続いて、過剰な権限を持つIAMロールの定義についても検証します。

全リソースへのフルアクセス権限
ワイルドカード信頼ポリシー
条件なしの信頼ポリシー
全アクション・全リソースのワイルドカードポリシー
全S3バケットへの無制限アクセス
条件なしのS3アクセス
全Secrets Managerシークレットへのアクセス
全RDSインスタンスへのフルアクセス
ExternalIdなしのクロスアカウントアクセス

テンプレートコードを表示（クリックして展開）

AWSTemplateFormatVersion: '2010-09-09'
Description: 'IAM Roles and Policies Configuration Template'

Resources:
ApplicationExecutionRole:
Type: AWS::IAM::Role
Properties:
RoleName: ApplicationExecutionRole
Description: Role for application execution
AssumeRolePolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Principal:
AWS: '*'
Action: 'sts:AssumeRole'

ManagedPolicyArns:
- 'arn:aws:iam::aws:policy/AdministratorAccess'

Tags:
- Key: Purpose
Value: ApplicationExecution

CustomAccessPolicy:
Type: AWS::IAM::Policy
Properties:
PolicyName: CustomAccessPolicy
Roles:
- !Ref ApplicationExecutionRole
PolicyDocument:
Version: '2012-10-17'
Statement:
- Sid: AllowAllActions
Effect: Allow
Action: '*'
Resource: '*'

StorageAccessRole:
Type: AWS::IAM::Role
Properties:
RoleName: StorageAccessRole
AssumeRolePolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Principal:
Service: ec2.amazonaws.com
Action: 'sts:AssumeRole'
Policies:
- PolicyName: S3FullAccess
PolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Action:
- 's3:*'
Resource:
- 'arn:aws:s3:::*'
- 'arn:aws:s3:::*/*'

DatabaseManagementRole:
Type: AWS::IAM::Role
Properties:
RoleName: DatabaseManagementRole
AssumeRolePolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Principal:
Service:
- lambda.amazonaws.com
- ec2.amazonaws.com
Action: 'sts:AssumeRole'
Policies:
- PolicyName: SecretsAccess
PolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Action:
- 'secretsmanager:GetSecretValue'
- 'secretsmanager:DescribeSecret'
- 'secretsmanager:ListSecrets'
- 'secretsmanager:PutSecretValue'
- 'secretsmanager:DeleteSecret'
Resource: '*'

- PolicyName: DatabaseAccess
PolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Action:
- 'rds:*'
Resource: '*'

CrossAccountAccessRole:
Type: AWS::IAM::Role
Properties:
RoleName: CrossAccountAccessRole
AssumeRolePolicyDocument:
Version: '2012-10-17'
Statement:
- Effect: Allow
Principal:
AWS: '*'
Action: 'sts:AssumeRole'
ManagedPolicyArns:
- 'arn:aws:iam::aws:policy/PowerUserAccess'

Outputs:
ApplicationRoleArn:
Description: ARN of the application execution role
Value: !GetAtt ApplicationExecutionRole.Arn

StorageRoleArn:
Description: ARN of the storage access role
Value: !GetAtt StorageAccessRole.Arn

DatabaseRoleArn:
Description: ARN of the database management role
Value: !GetAtt DatabaseManagementRole.Arn

CrossAccountRoleArn:
Description: ARN of the cross-account access role
Value: !GetAtt CrossAccountAccessRole.Arn

結果

IAMロールに関する診断においても、非常に高い精度を示しました。
特に「ApplicationExecutionRole」に対して「最も危険」と断言し、Principalの設定不備（全世界公開）とAdministratorAccessの組み合わせによる致命的なリスクを最優先で指摘している点は高く評価できます。各ロールの問題点を構造的に整理して提示しており、修正方針も具体的です。

Credits used: 0.29
Elapsed time: 18s
contextusage 19%

Kiroによるレビュー結果を表示（クリックして展開）

セキュリティレビュー結果
このCloudFormationテンプレートには重大なセキュリティ脆弱性が複数存在します。本番環境での使用は絶対に避けてください。

🚨 重大な問題点

1 . ApplicationExecutionRole - 最も危険

Principal: '*' : 誰でもこのロールを引き受け可能（全世界に公開）

AdministratorAccess: AWS環境の完全な管理者権限

Action: '', Resource: '' : すべてのAWSサービスへの無制限アクセス

リスク: 攻撃者がこのロールを使用してAWS環境全体を完全に制御可能

2 . CrossAccountAccessRole - 非常に危険

Principal: '*' : 誰でもこのロールを引き受け可能

PowerUserAccess: IAM以外のほぼすべてのAWSサービスへのフルアクセス

リスク: 外部の攻撃者が簡単にアクセス可能

3 . StorageAccessRole - 過剰な権限

s3:* すべてのS3バケットへのフルアクセス

Resource: 'arn:aws:s3:::*' : アカウント内のすべてのバケットが対象

リスク: データ漏洩、削除、改ざんのリスク

4 . DatabaseManagementRole - 過剰な権限

secretsmanager:DeleteSecret: シークレットの削除が可能

rds:*: すべてのRDS操作が可能（削除含む）

Resource: '*' : すべてのリソースが対象

リスク: データベースの削除、機密情報の漏洩

📋 推奨される修正内容
各ロールについて以下の原則を適用すべきです：

最小権限の原則: 必要最小限の権限のみを付与

Principal の制限: 特定のAWSアカウントやサービスのみに限定

Resource の制限: 特定のリソースARNを指定

条件の追加: MFA必須化、IPアドレス制限など

⚠️ 結論
このテンプレートは使用しないでください。
もし学習目的や脆弱性テスト環境の構築が目的であれば、隔離された専用のAWSアカウントで使用し、使用後は必ずリソースを削除してください。
本番環境や開発環境で使用する場合は、セキュアなテンプレートへの全面的な書き直しが必要です。

まとめ

今回は、Claude Sonnet 4.6 の概要と、AWS Kiroを用いたIaCコードレビューの検証結果をお届けしました。
Claude Sonnet 4.6はMCPの補助なしで脆弱性を見抜く推論能力の高さを感じました。

もちろん、システム全体の複雑な依存関係や、独自のビジネスロジックに基づいた深い推論が必要な場面では、引き続きOpus 4.6に軍配が上がる可能性はあります。しかし、日常的なレビューやセキュリティチェックならSonnet 4.6は十分な性能を発揮してくれそうです。

↓QESではKiroについて積極的に情報発信していきますので是非ご覧ください！