CData Arc によるバルク/ バッチ処理
複数のシステムからのデータをデータウェアハウスまたはデータレイクに統合する場合は、いくつかのオプションがあります。これには、バッチ処理、リアルタイムでのワークフローのトリガー、およびパブリッシュ/ サブスクライブが含まれます。CData Arc は、これらすべてのアプローチに使用できる単一のユーザーインターフェイスを備えた単一のツールを提供します。この投稿では、バッチ処理を採用する時期と理由、およびCData Arc を使用してこのデータ統合方法を実行する方法に焦点を当てます。
バッチ処理とは?
歴史的に、データウェアハウジングなどのほとんどのデータ処理テクノロジーは、バッチ処理用に設計されていました。確かに、リアルタイムおよびストリーミングデータ統合テクノロジーは、現在メディアでより多くの関心を集めています。しかし、ラジオがテレビの時代にその地位を維持しているように、バッチ処理がすぐになくなることはありません。バッチジョブは、大量のレコードを一度に処理します。新しく到着したデータ要素はグループに整理され、将来処理されます。管理者は、処理がいつどのように行われるかを完全に制御できます。たとえば、バッチジョブを定期的な時間間隔(たとえば、15 分、時間、夜ごと)で実行するようにスケジュールしたり、条件によって(たとえば、バッチに1MB を超えるデータが含まれている場合)、新しく変更されたすべてのレコード、または指定された条件を満たすレコードを集約したバッチを組み込んだジョブをトリガーしたりできます。多くの場合、ジョブはオフラインで動作し、本番システムでの通常の動作を中断しないように夜間に実行されます。
利点:高性能、低コスト
大量の反復タスクを実行するように最適化されたバッチ処理は、大量のデータを高速に処理する方法を提供します。たとえば、データベースに20,000 行を挿入することは、バッチプロセスで、各行を個別のトランザクションとして挿入するよりもはるかに高速です。自動処理により専門のデータ入力担当者が不要になるため、運用コストも削減されます。
ユースケース
バッチ処理は通常、最新のデータを必要としない大量の反復タスクを実行するために使用されます。銀行、e コマース会社、または製造業者は、バッチプロセスを使用して、1 日の終わりに、ローン申請、販売取引、または在庫に関する生産データでデータウェアハウスを更新する場合があります。企業は、バッチプロセスを使用して、レポートの生成、ドキュメントの印刷、および特定のビジネス期限内に確実に完了する必要があるその他の非対話型タスクを実行する場合もあります。
アーキテクチャ
バッチ処理アーキテクチャには、次のコンポーネントがあります。
- データストレージ。さまざまな形式の大量のデータ用のストレージが必要です。これは、データウェアハウスまたはデータレイクの場合があります。
- ジョブのバッチ処理。これらのジョブは、データソースを読み取り、処理し、出力を新しいストレージに書き込みます。
- 分析データストア。多くのバッチジョブは、分析用のデータを準備し、分析ツールを使用してクエリできる構造化された形式で処理されたデータを提供するように設計されています。
- 分析およびレポートツール。多くのバッチ処理ジョブの目標は、分析とレポートを通じてデータへの洞察を提供することです。
- オーケストレーション。通常、データをデータストレージ、バッチ処理、分析データストア、およびレポートレイヤーに移行またはコピーするには、いくつかのオーケストレーションが必要です。
CData Arc を使用したバッチ処理
CData Arc は、バッチ処理の実装を容易にするいくつかの機能を提供します。
-
バッチ結果 - すべてのCData Arc データストレージポートには「バッチ結果」トグルが含まれています。False に設定すると、ポートは処理されたレコードごとに個別のメッセージを作成します。有効にす ると、CData Arc はメッセージ内のすべてのレコードに対して単一のメッセージを作成するため、それらは一緒に処理され、1 つとして処理するために次のポートに送信されます。このプロセスは単一の「トランザクション」で処理されます。障害が発生した場合、すべてのメッセージが同時にロールバックされます。
-
スケジュールされたジョブ – CData Arc は、バッチジョブを任意の間隔で実行するようにスケジュールできます。ユーザーは、データセット全体を処理するようにCData Arc を構成することも、最後の間隔以降に変更されたレコードのみを処理するように構成することもできます。このプロセスは構成可能であり、タイムスタンプを介して、または行が再度処理されないようにするレコードフラグを介して機能できます。
-
関連データまたは非関連データ - ユーザーは、同じタイプのデータ、または構造化情報と非構造化情報の混合を含む非関連データを含むバッチジョブを作成できます。請求書用のバッチやサポートラインアイテム用のバッチなど、関連するバッチを指定することもできます。
-
バルクCSV インポート / エクスポート - 弊社のポートはCSV ファイルを直接インポートおよびエクスポートしてパフォーマンスを向上させることができます。
時間があまり重要ではなく、高いパフォーマンスで大量のデータを処理する必要がある場合は、CData Arc の高い柔軟性とバッチプロセスの最適化が進むべき道です。
EDI およびバルク / バッチ処理
大量のファイルを送信するパートナーがいる場合は、EDI メッセージのバッチ処理を検討することをお勧めします。EDI 仕様は、バッチ処理の処理方法を定義し、CData Arc EDI ポートはそれらの仕様に準拠しています。さらに、CData Arc を使用するとユーザーは受信EDI メッセージに追加のバッチ処理を使用できます。たとえば、X12、EDIFACT、およびその他のEDI トランザクションポートのポートを使用すると、ユーザーはトランザクションのバッチを受け入れ、バッチを個別のトランザクションに分割し、それぞれを異なる場所にルーティングできます。バッチに請求書と出荷通知の両方が含まれている場合、ユーザーは請求書を経理に自動的にルーティングし、出荷通知をロジスティクスにルーティングできます。
適切なストレージの選択
選択するストレージシステムは、データの形式、構造、モデル、使用目的、およびスキーマ、整合性、トランザクション速度の要件によって異なります。リレーショナルデータベース管理システム(RDBMS)、非リレーショナルNoSQL データベース、さらには分散データベース(DDB)のいずれを選択しても、CData Arc を使用すると、選択したデータストレージシステムとのシームレスな自動接続が可能になります。
-
リレーショナルデータベース は、世界で最も普及しているデータストレージシステムであり、データを行と列のあるテーブルとして表示できるスキーマに従ってデータを保存するために使用できます。これらのデータベースはSQL ステートメントの使用を基礎としており、そのようなシステムの一般的な例には、MySQL、Microsoft SQL Server、PostgreSQL、Oracle などがあります。CData Arc には、他のいくつかのRDBMS アプリケーションの中でも、これらの各システム用のポートがあり、データベースに接続して、バッチ処理されたデータを挿入することができます。
-
NoSQL、非リレーショナルデータベースシステム は、保存されているデータの多くが表形式でない場合に推奨される選択肢です。RDBMS とは異なり、NoSQL システムはスキーマに依存しないため、非構造化または部分的に構造化されたデータストレージに最適です。NoSQL システムには、Redis やAmazon DynamoDB などのキーバリューストア、Cassandra やApache HBase などのワイドカラムストア、MongoDB やCouchbase などのドキュメントストア、さらにはGoogle Search やElasticsearch などの検索エンジンを含めることができます。さまざまなNoSQL システムがあるので、選択肢には困りません。RDBMS の場合と同様に、CData Arc は前述のすべてのシステムおよびその他多くのシステムのポートをサポートします。
-
分散データベース は、データ処理を複数のノードに分散することで最適化された、ネットワーク全体に分散した複数のサーバーに保存できるデータ量を増やすことができるデータウェアハウジングソリューションです。分散データストレージ用のそのようなプラットフォームの1 つは、Apache Hadoop です。特に、そのストレージ部分であるHadoop 分散ファイルシステム(HDFS)は、汎用マシンを使用し、すべてのマシンで高スループットを提供する分散ファイルシステムです。クラウドベースのデータウェアハウジングソリューションであるAmazon Redshift ももう1 つのオプションです。このようなシステムを使用する場合、データフローを抽出、変換、読み込み(ETL)プロセスでルーティングするか、抽出、読み込み、変換(ELT)プロセスを選択できます。CData Arc は両方の手法をサポートします。つまり、アプリケーションは、選択したプロセスに関係なく、データフローを格納できます。ご想像のとおり、CData Arc には、他の分散データベースシステムや分散ファイルシステムの中でも、Redshift とHDFS の両方のポートがあります。
全体として、CData Arc は、大量のデータを処理および統合するように設計された堅牢なアプリケーションソリューションです。継続的に増加する接続ポートのおかげで、大量のデータをバッチ処理し、それを任意の数のデータベースシステム、ERP アプリケーション、およびデータストアに接続できます。これにより、ストレージシステムに出入りするデータの構造をきめ細かく制御でき、データフローを自動化および最適化して、今日のデータ主導型経済におけるデータの力を活用できます。
今すぐダウンロード
CData Arc 2018 をダウンロードします。これは、組織全体でデータとアプリケーションを接続するための最も速くて簡単な方法です。