本講座のレビューに関して記載された記事数の「直近6カ月の推移」を以下のグラフにまとめました。
| Month | Progress |
|---|---|
| 1月 | |
| 2月 | |
| 3月 | |
| 4月 | |
| 5月 | |
| 6月 | 1 |
数あるDEAの教材から本教材を観覧いただきありがとうございます!
更新履歴
2026/2: 出題順序固定版の演習問題を追加しました。※出題順序固定版は演習1~4と同じ問題です。
なぜこの問題集が必要なのか?
AWS認定データエンジニア - アソシエイト(DEA-C01)試験は、2023年に新設されたデータ専門の認定資格です。従来のBig Data Specialty認定を進化させ、より実務に即した実践的なデータエンジニアリングスキルが求められるようになりました。
本問題集は最新のDEA-C01試験傾向に完全対応しています。
DEA-C01で特に重視される要素:
モダンデータサービス(Glue、Lake Formation、Redshift Serverless)への深い理解
データパイプラインの自動化とオーケストレーション設計
行レベル・列レベルでのきめ細かいセキュリティ制御
データフォーマット最適化とパフォーマンスチューニング
コスト最適化とスケーラビリティの両立
実務に即した複合的なデータ統合シナリオ
本問題集の圧倒的な特徴
1. 2026年最新トレンド完全対応
最新のAWSデータサービスアップデートと試験傾向を反映した問題構成。AWS Glue Schema Registry、Lake Formation行レベルセキュリティ、Redshift Serverless、DataSyncなど、DEA-C01で頻出する分野を網羅。
2. 実務レベルの深い解説
単なる正解提示ではなく「なぜその選択肢が最適なのか」「実際の運用では何を考慮すべきか」まで詳細解説。データエンジニアとして現場で即活用できる実践知識を習得。
3. 全選択肢の詳細分析
正解選択肢だけでなく、不正解選択肢についても「なぜ適切でないのか」「どういう場面なら有効か」を丁寧に解説。試験で求められる思考プロセスを完全理解。
4. アーキテクチャ図で視覚的理解
複雑なデータパイプラインやマルチサービス連携を視覚化した図解を多数収録。データフローとアーキテクチャ全体像を直感的に把握可能。
5. 本番同等の問題難易度
実際の試験と同レベルの複雑さと深さを再現。単一選択・複数選択問題、複合サービス問題、パフォーマンス最適化問題に完全対応。
品質確認用サンプル問題
本教材の解説レベルを確認いただくため、実際の収録問題をご紹介します:
問題文:
あるデータエンジニアがAWS Glue ETLジョブを使用してAWS上にデータパイプラインを構築しています。このデータエンジニアは、Amazon RDSとMongoDBからデータを処理し、変換を実行して、変換されたデータを分析用にAmazon Redshiftにロードする必要があります。データ更新は毎時発生する必要があります。
運用オーバーヘッドを最小限に抑えてこれらの要件を満たすには、どのタスクの組み合わせが必要ですか。(2つ選択)
選択肢:
A. AWS Glueトリガーを設定して、ETLジョブを毎時実行する。
B. AWS Glue DataBrewを使用して、分析用にデータをクリーニングおよび準備する。
C. AWS Lambda関数を使用して、ETLジョブを毎時スケジュールおよび実行する。
D. AWS Glue接続を使用して、データソースとAmazon Redshift間の接続を確立する。
E. Redshift Data APIを使用して、変換されたデータをAmazon Redshiftにロードする。
考えてからスクロールしてみてください。
正解:A、D
(AWS Glueトリガーを設定して、ETLジョブを毎時実行する。AWS Glue接続を使用して、データソースとAmazon Redshift間の接続を確立する。)
各選択肢の詳細解説
A. AWS Glueトリガーを設定して、ETLジョブを毎時実行する。
正解
AWS Glueトリガーは、ETLジョブのスケジュール実行を管理するためのネイティブ機能です。時間ベースのトリガーを設定することで、毎時など定期的なスケジュールでジョブを自動実行できます。
AWS Glueに統合された機能であるため、外部のスケジューリングツールやカスタムスクリプトを導入する必要がなく、運用オーバーヘッドを最小限に抑えられます。トリガーの設定はGlueコンソールやAPIから簡単に行え、ジョブの実行履歴やエラー監視もGlueコンソールで一元管理できます。
スケジュールトリガーは「rate(1 hour)」のような形式で設定でき、cron式にも対応しています。イベントベースのトリガーと組み合わせることで、複数ジョブの依存関係を管理した複雑なワークフローの構築も可能です。
B. AWS Glue DataBrewを使用して、分析用にデータをクリーニングおよび準備する。
不正解
AWS Glue DataBrewは、ノーコードのビジュアルデータ準備ツールです。データのクリーニングや正規化をGUIで行えますが、この問題ではすでにAWS Glue ETLジョブを使用することが前提となっています。
DataBrewは対話型のデータ探索やビジュアルな変換定義に適していますが、すでにETLジョブとして処理が定義されている場合、追加のサービスを導入することは運用オーバーヘッドの増加につながります。また、DataBrewとGlue ETLジョブを組み合わせて毎時実行するには追加の調整が必要となります。
DataBrewが有効なシナリオは、データアナリストが技術的な知識なしにデータ準備を行う必要がある場合や、データの品質問題を対話的に探索・修正する場合です。本問題のようにプログラマティックなETL処理が確立されている場合は不要です。
C. AWS Lambda関数を使用して、ETLジョブを毎時スケジュールおよび実行する。
不正解
AWS Lambda関数とAmazon EventBridgeを組み合わせてGlue ETLジョブをトリガーすることは技術的には可能です。しかし、AWS Glueには組み込みのトリガー機能があるため、同じ目的を達成するのにLambda関数を追加で作成・管理する必要はありません。
Lambda関数を使用する場合、関数のコード管理、IAMロールの設定、EventBridgeルールの設定など、追加の運用オーバーヘッドが発生します。Glueトリガーを使用する方がシンプルで運用負荷が低いソリューションとなります。
Lambda関数によるオーケストレーションが有効なのは、複雑な条件分岐、外部APIとの統合、カスタムビジネスロジックの実行など、Glueトリガーだけでは実現できない高度な制御が必要な場合です。単純なスケジュール実行であればGlueトリガーで十分です。
D. AWS Glue接続を使用して、データソースとAmazon Redshift間の接続を確立する。
正解
AWS Glue接続は、さまざまなデータソースへの接続情報を一元管理する機能です。Amazon RDS、MongoDB、Amazon Redshiftなど複数のデータストアへの接続設定を定義し、ETLジョブから再利用できます。
Glue接続を使用することで、接続文字列、認証情報、VPC設定などを抽象化し、ジョブコードから分離できます。これにより、接続情報の変更時にジョブコードを修正する必要がなく、運用が簡素化されます。また、AWS Secrets Managerとの統合により、認証情報の安全な管理も可能です。
JDBC互換データベース(RDS)とカスタム接続(MongoDB)の両方をサポートし、VPCエンドポイントやプライベートサブネットを介した安全なアクセスも設定できます。接続テスト機能により、ETLジョブ実行前に接続の正確性を検証できます。
E. Redshift Data APIを使用して、変換されたデータをAmazon Redshiftにロードする。
不正解
Redshift Data APIは、Redshiftクラスターへの接続を維持せずにSQLステートメントを実行できる非同期APIです。Lambda関数などのサーバーレス環境からRedshiftにアクセスする場合に便利ですが、AWS Glue ETLジョブでは標準的なJDBC接続を使用してRedshiftにデータをロードします。
Glue ETLジョブには、Redshiftへのデータ書き込み用のネイティブコネクタが用意されており、Glue接続を使用することで効率的にデータをロードできます。Data APIを使用すると、追加の実装が必要となり、運用オーバーヘッドが増加します。
Redshift Data APIが適しているのは、サーバーレスアプリケーションからの軽量なクエリ実行や、AWS Step Functionsとの統合など、ETLジョブ以外のシナリオです。大量データのバルクロードには、COPY コマンドとGlueの標準コネクタが最適です。
全体的な解説
問われている要件
Amazon RDSとMongoDBからデータを取得
データ変換を実行
Amazon Redshiftへロード
毎時のデータ更新
運用オーバーヘッドの最小化
前提知識
AWS Glue ETLジョブについて
AWS Glueは、フルマネージドのETLサービスです。Apache Sparkを基盤としており、大規模なデータ処理をサーバーレスで実行できます。PythonまたはScalaでETLスクリプトを記述し、データカタログで管理されるテーブル定義を使用してデータの抽出、変換、ロードを行います。ジョブの実行に必要なコンピューティングリソースは自動的にプロビジョニングされ、ジョブ完了後に解放されます。
Glue 3.0以降では、Spark 3.1のパフォーマンス向上により、従来比で最大10倍高速な起動時間を実現しています。また、DPU(Data Processing Unit)単位で課金されるため、実行時間とリソース使用量に応じたコスト最適化が可能です。
AWS Glueトリガーの仕組み
Glueトリガーには3種類あります。スケジュールトリガーはcron式またはレート式で定期実行を設定でき、イベントトリガーは他のジョブの完了を検知して実行を開始し、オンデマンドトリガーは手動またはAPI経由で実行します。
毎時実行であればスケジュールトリガーを使用し、「rate(1 hour)」のような形式で設定します。cron式を使用すれば、より複雑なスケジュール(毎営業日の特定時刻など)も設定可能です。トリガーは複数のジョブを連鎖的に実行することもでき、前のジョブの成功/失敗に応じた条件分岐も実装できます。
AWS Glue接続の役割
Glue接続は、外部データストアへの接続情報をカプセル化するオブジェクトです。JDBC URL、認証情報、VPCサブネット、セキュリティグループなどの設定を保存し、複数のジョブやクローラーで共有できます。
RDS、Redshift、MongoDB、その他のJDBC互換データベースへの接続をサポートしています。接続テスト機能により、設定の正確性を事前に検証できます。VPC内のプライベートデータベースへのアクセスには、Glue接続を介してVPCエンドポイントやNATゲートウェイ経由のルーティングを設定します。
認証情報は、接続定義内に直接保存する方法と、AWS Secrets Managerから取得する方法の両方をサポートしています。セキュリティ要件が高い環境では、Secrets Manager統合によるローテーション可能な認証情報管理が推奨されます。
解くための考え方
この問題では、AWS Glue ETLジョブによるデータパイプラインにおいて、毎時実行のスケジューリングとデータソースへの接続という2つの課題を、運用オーバーヘッドを最小限にして解決する方法を選択します。
スケジューリングについては、AWS Glueトリガーを使用する方法とAWS Lambda関数を使用する方法が候補として挙げられています。Glueトリガーはサービスに組み込まれた機能であり、追加のコンポーネントを作成・管理する必要がありません。一方、Lambda関数を使用する場合は、関数のコード、IAMロール、EventBridgeルールなど追加の要素を管理する必要があります。したがって、運用オーバーヘッド最小化の観点からGlueトリガーが適切です。
データソースへの接続については、AWS Glue接続を使用することで、RDS、MongoDB、Redshiftへの接続設定を一元管理できます。接続情報をジョブコードから分離することで、メンテナンス性が向上し、認証情報の安全な管理も可能になります。DataBrewやRedshift Data APIは、既にGlue ETLジョブを使用する前提の問題設定において追加のオーバーヘッドとなるため、適切ではありません。
複数のデータソース(RDSとMongoDB)と出力先(Redshift)がある場合、それぞれに対してGlue接続を定義することで、ジョブコードをシンプルに保ちながら、各データストアへの安全なアクセスを実現できます。
アーキテクチャ図
問題集本編には詳細なアーキテクチャ図(画像)が付属します。
※本編では見やすいカラー画像です。ここではUdemyの仕様上画像を掲載できません。
アーキテクチャ図の解説
AWS GlueによるETLパイプライン全体構成
複数のデータソース(Amazon RDSとMongoDB)からデータを抽出し、変換してAmazon RedshiftへロードするETLパイプラインです。Glue Triggerが毎時スケジュール実行を管理し、Glue Connectionが各データソースへの接続情報を一元管理します。
Glue ETLジョブはApache Sparkベースで動作し、サーバーレスで大規模データ変換を実行します。接続情報をGlue Connectionで抽象化することで、認証情報の変更時にジョブコードを修正する必要がなく、運用オーバーヘッドを最小化できる構成となっています。
データフローとプロセス
毎時トリガーがGlue ETLジョブを起動すると、ジョブはまずGlue Connectionで定義された接続情報を使用してRDSとMongoDBからデータを抽出します。抽出されたデータはSpark DataFrameとして処理され、変換ロジックが適用されます。
変換後のデータは、再びGlue ConnectionでRedshift への接続を確立し、効率的にロードされます。この構成により、毎時定期的に最新データが分析基盤に反映され、継続的なデータ更新が自動化されます。
参考資料
問題集本編にはAWSドキュメントへのリンクが付属します。
他の教材との決定的な違い
従来の問題集の課題:
浅い解説で「なぜ」が理解できない
データパイプライン設計の全体像が見えない
運用・コスト・セキュリティの実務観点が不足
本教材の優位性:
2026年最新の出題傾向を完全分析
データエンジニア目線での実践的解説
アーキテクチャ図で視覚的にデータフローを理解
運用オーバーヘッド・パフォーマンス・コストの実務観点を網羅
AWS公式ドキュメントへの参考リンクで深い学習が可能
本コースの特徴を単語単位でまとめました。以下の単語が気になる方は、ぜひ本講座の受講をオススメします。
本講座を受講した皆さんの感想を以下にまとめます。
参考になる受講者の口コミやレビューを以下にまとめます。
・AWS DEA-C01とMLA-C01に合格しました。[2026-06-11に投稿]