Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
小規模データサイエンスチームを支えるSageMaker Ground Truth
第5回 Amazon SageMaker 事例祭り
© aptpod Inc. All Rights Reserved. 1
株 式 会 社 ア プ ト ポ ッ ド 南 波 寛 直2 0 1 9 / 0 5 / 2 1
概要
© aptpod Inc. All Rights Reserved. 2
お客様ごとに性質の異なるデータに対し、限られた社内リソースで効率的・安定的にアノテーションを行うために、Amazon SageMakerGround Truthの利用を始めました「データのラベル付けの自動化」機能と「社内チームによるラベル付け」機能を中心に、実際の活用方法をご紹介します
会社紹介
© aptpod Inc. All Rights Reserved. 3
アプトポッドの製品が実現する産業IoTシナリオと機能
© aptpod Inc. All Rights Reserved. 4
産業IoTミドルウェア
© aptpod Inc. All Rights Reserved. 5
• ミドルウェア• (AWSにおけるKinesis / AWS IoTに類するもの)
• データ収集のためのハードウェア / ソフトウェア• 可視化アプリケーション• 伝送プロトコル
を自社開発し、研究・開発〜量産・運用までの全てのフェーズを支援
アプトポッド製品と機械学習との繋がり
© aptpod Inc. All Rights Reserved. 6
データ送信 可視化 / 探索 SDKによる取得 機械学習
Visual M2M Motion for iOS
© aptpod Inc. All Rights Reserved. 7
• モバイルアプリ• 9軸センサ / GPS / 動画像データ
をリアルタイムに送信できるアプリケーション• PoCフェーズにて大活躍
Visual M2M Data Visualizer
© aptpod Inc. All Rights Reserved. 9
• データ可視化のためのブラウザアプリケーション• センサ / 動画像 / マップ等データ
を(ブラウザの限界まで挑戦して)サクサク表示してくれる
「データ探索」の際には手放せないツール
課題
© aptpod Inc. All Rights Reserved. 1 0
課題
© aptpod Inc. All Rights Reserved. 1 1
「データの分析 / 活用もご一緒しませんか」とのお話をいただいた際にデータサイエンスチームの出番だが
• 少人数チーム• (最近4人まで増えました👍)
• お客様ごとに課題・タスク・データの種類が異なる• 時系列性を持つ様々なセンサデータが中心だが、最近は動画の需要が高い
などからデータの準備(画像に対するラベリング)に不安があった
過去のラベリング実施例
© aptpod Inc. All Rights Reserved. 1 2
1. ラベル付け対象となる画像データセットを用意2. データを一定枚数毎に分割し、これを管理するシートを用意3. ボランティアを募集し、使用するツールやラベリングの手順を説明4. ラベリング実施5. 結果の検証(ラベルのtypoの修正など)、マージ
これに加えてツールのOS/バージョン依存など、ラベリングそのものの大変さに加えて諸々の管理も大きなコストとなっていた
取り組み
© aptpod Inc. All Rights Reserved. 1 3
Amazon SageMaker Ground Truthの試用
© aptpod Inc. All Rights Reserved. 1 4
(他の商用のアノテーションツールもいくつか認知していたが)
• SageMakerとの親和性• アノテータの管理が容易(そうに見えた)• 自動ラベリング機能を複雑な準備なく利用可能(そうに見えた)
などの条件から、Amazon SageMaker Ground Truthを試した
試用した際の諸条件
© aptpod Inc. All Rights Reserved. 1 5
• タスクタイプ:• 境界ボックス
• オブジェクト数:• 1400枚
• ワーカー:• プライベート
• 自動ラベリング:• あり
• ラベリング対象:• 画像内の最大のパイロン(三角
コーン)
使用感 / 所感
© aptpod Inc. All Rights Reserved. 1 6
プライベートワークフォース
© aptpod Inc. All Rights Reserved. 1 7
• ワーカーの管理に必要な情報はメールアドレスだけ• 届くメールに記載のURLと仮パスワードを使用し、すぐにラベリング作業可能• (AWSの外の世界で)作業に関する契約をし、メールアドレスだけ管理するよ
うなユースケースも構築できそう• ワーカーごとの進捗/統計等は確認できなさそう(?)• 従量で謝礼をお支払いするケースでは必要となりそう
自動ラベリング – 動作
© aptpod Inc. All Rights Reserved. 18
• データセット全体(1400枚)に対して:• 手動ラベリング(1280枚)→モデル学習(1時間)→自動ラベリング(120枚)• 結果、63枚が自動でラベリングされた
自動ラベリング – 出力例
© aptpod Inc. All Rights Reserved. 1 9
•右下が自動ラベリングの出力• (手動では「最大のパイロン」のみ
にラベリングしているため)• もちろん完璧ではないが、要件次
第では十分使えそう?
自動ラベリング – 発見
© aptpod Inc. All Rights Reserved. 2 0
• 280 / 1000でジョブの区切りがあった• おそらく後者はカスタムワークフローにおける MaxConcurrentTaskCount に相当しそうなため、設定次第で自動ラベリングの割合は調整可能(?)
• とはいえ、諸々のコスト・パフォーマンスを考えると公式ドキュメントの記載に従ったほうが幸せそう• 「自動化データラベリングを使用する場合、数千のデータオブジェクトを使用することを
お勧めします。少なくとも 5,000 データオブジェクトを使用する必要があります。」
• 自動ラベリングのために作成されたモデルもS3に保存されている• 速報的に「データセットの性能どんな感じ?見込みありそう?」といった情報を知るためにも流用できそう!
全体的な所感
© aptpod Inc. All Rights Reserved. 2 1
•成長中なサービスな印象• 3月に境界ボックスのラベルを複数にできる機能が増えていた👍• 5月上旬頃、一部リージョンのコンソールが崩れジョブを作成できなかった🙈
• 同時期にCLIから類似設定のつもりでジョブを作成すると数十枚の手動ラベリング後に“Annotation Consolidation Failed” が発生し完了できなかった🤔
• ワーカーの管理の機能はまさに求めていたもの• 複数人の分業が必要な量のデータセットでは利用していきたい
• データセットを継ぎ足しで拡充するケースへのソリューションに期待• 「お客さまごとにゼロからデータセットを作っていく」ケースが多いため、特に
自動ラベリング機能と合わせて継ぎ足しに対応されると最高
宣伝
© aptpod Inc. All Rights Reserved. 2 2
AWS Summit TOKYO 2019
© aptpod Inc. All Rights Reserved. 2 3
• ゴールドスポンサーとして展示出展、及びセッション登壇• 「モバイル、インターネットを介した制御・センサーデータや動画・画像などの
データ伝送におけるリアルタイム性、双方向性、データの完全回収を同時実現し、Python実行基盤『intdash Analytics Service』による機械学習・AI環境までサポートする産業向け高速IoTフレームワーク『intdash』を中心に、Amazon SageMakerとの連携による機械学習・AIソリューション及びAmazon RoboMakerとの連携によるロボティクス向けソリューションなど、デモを交えてご紹介します。」