Data Processing Layer / データ処理レイヤー

RAWデータはすぐにデータ分析に使用することはできません。私たちのデータ処理レイヤーでは、RAWデータを処理してノイズを除去し、データの真実性を確認(偽データの混入を防止)し、データスキーマを通じてデータを再構築します。

データの真実性検証

ネットワーク内のインセンティブによって、偽データを作成するような悪意のある行動が予測されます。そのため、データの真実性を検証するためにハイブリッドアプローチを採用します。これは、完全に失敗しない方法は存在しないため、以下の示すものを含みますがこれに限らない方法も採用します:

  • 異常検出のためのAI/MLアルゴリズム(例:オートエンコーダ、アイソレーションフォレスト、Zスコアなど)

  • データスキーマによって強制されるアサーションチェック(特定の基準を満たさないデータエントリを拒否)

  • データプロヴェナンスのチェック

  • データコンシステンシーのチェック

このアプローチの詳細については、逆エンジニアリングや悪用を防止するために公開しません。

データマッピングとスキーマ管理

情報の量は常に増加していますが、すべての情報に価値があるわけではありません。ネットワークのストレージと処理能力には限界があるため、重要なデータフィールドを特定し(残りは破棄)、その定義を含めることが重要です(つまり、データフィールドが何を意味するか、RAWデータフィールドは省略形や略語で記述されていることがあるため)。これがデータマッピングとデータスキーマの役割です。ネットワーク内では、データマッピングとデータスキーマの組み合わせをデータテンプレートと呼びます。

同じデータを解釈する方法は無限にありますし、データスキーマを定義する方法も無限にあります。したがって、私たちはこのモジュールを分散化することを決定しました。つまり、誰でもデータスキーマの定義に参加でき、その定義したデータスキーマが有効で意味のあるものであれば報酬を得ることができます。

データマッピング

  1. ソースファイル名(絶対パスまたは条件付き)

  2. ソースフィールド名(ソースファイルのRAWフィールド名)

  3. ターゲットフィールド名(オプション)

データスキーマ

デフォルトでは、1つのファイルは1つのテーブル/グラフに対応します。

  1. データベースの種類(リレーショナル / グラフ / ハイブリッド)

  2. エンティティ情報

  3. 出所情報

  4. テーブル名

  5. フィールド

    1. RAW名(データマッピングファイルのソースフィールド名に紐づけ)

    2. 標準名(データフィールドの標準化されたまたは人間が読みやすい名前、オプション)

    3. データ型

    4. 定義/説明

    5. フィールド形式(オプション)

    6. アサーション(オプション)

    7. データの機密性 / プライバシーレベル(オプション、個人を特定できる情報を除去するために使用)

    8. Null可能性

    9. キーかどうか

詳細については、Roles - Data Schema Developer ページをご覧ください。この意義ある取り組みにどのように参加できるかをご確認いただけます!

データの非機密化と事前処理

データの真偽性と取り込むデータフィールドの検証が完了した後、データは非機密化と事前処理を経て、データ提供者のプライバシーが保証され、データ分析に適した形式に整えられます。これには以下の内容が含まれますが、これに限定されません:

  • Desensitization / 非機密化(Removing Personal Identifiable Information(PII))

  • Handling Missing Data / 欠損データの処理(FillNA, FillZero, Mean, etc.)

  • Data Standardizing / データの標準化(構造化データフィールドのため)

  • Structured Data Conversion / 構造化データへの変換

  • Type Conversion / 型変換

  • One-Hot Encoding / One-Hot エンコーディング

Last updated