サステイナブル社会の実現へ向けたエッジAI コンピューティング · 受信局山野・山林の ... SPRESENSE will realize a small IoT prototype system with

ソニー株式会社 R&Dセンター

廣井聡幸

サステイナブル社会の実現へ向けたエッジAIコンピューティング

LSIとシステムのワークショップ２０１９ 2019.5.13-14

Copyright 2019 Sony Corporation 2

目次

サステイナブル社会実現へのアプローチ

高機能低消費電力SOC

AIツール Neural Network Console

認識アルゴリズムの実装例

山間地帯におけるLPWA

東工大COIの紹介


目次








人類が直面する課題 (環境問題・社会問題)

環境汚染

人口爆発

インフラの更新費用上昇現状インフラを維持するだけでも2030年に

向けて費用が大幅増

発展途上国の経済成長 → 資源の不足（不都合な事実）

日本（課題先進国）の高齢化問題 → 将来の世界の課題

農薬の過剰使用

新設費用更新費用メンテナンス費用災害復旧費用

予測

高齢人口

生産年齢人口

若年人口

1950 2000 2050

人口

(1

00万人）

人口

(億人

)

1965 2010 2050

（兆円）

30

20

10

0

アジア・太平洋地域 CAGR 7% = 200%/10年

急激な生産量増加に伴う農薬使用量の増加

農薬工業会資料より

水の不足

国土交通省資料より




サステイナブル社会へ向けたアプローチ

人口の爆発的増加

環境汚染

農薬過剰散布

インフラのメンテナンスコスト増加

異常気象

水不足

食料問題

少子高齢化・労働人口減少

アプローチ様々な環境問題・社会問題

事後対応によらず、

不都合な事態・異変の予兆を低環境負荷、低コストで検知し

未然に防止する

あらゆる物をセンシングし、

人に、必要な行動を促す

メッセージに変換する低消費電力広域無線通信

超低消費電力エッジAI プロセッサ

データ・アナリティクス

セキュリティ技術

低消費電力センサー

AI認識

低環境負荷ハードウェア

必要な技術

What

How

デバイス・HW ソフトウエア

ULP Edge-AI認識


なぜ超低消費電力エッジ認識か

センシングした生のデータをクラウドへ上げられない電池を含めて小型軽量かつ長時間動作が必要無線通信電力・通信コストを下げるには、大量のデータを送れないセンサーノード数が増えると、無線通信回線がパンクしてしまう無線はムーアの法則が効かない（未来永劫、物理限界に縛られる）

携帯網がカバーできない領域を、LPWAでカバーする LTE/3Gがカバーできないエリアのセンシングが必要基地局数を増やせない ⇒ 遠くまで飛ばして基地局数を減らすその代り、モールス信号並みの情報量

情報量をエッジ側で落とす必要があるエッジ側はAIアルゴリズムの進化やムーアの法則で、高度な処理を低消費電力でできる必要な時だけ、意味情報として送る

滅多に電池交換ができない Trillion sensorの時代には、1億人電池交換が必要とも言われている軽量電池で数年持たせるため、超低消費電力化がマスト

究極的にはエナジーハーベスト


超低消費電力エッジAI + LPWA による見守り

LPWA 受信局

山野・山林の監視

河川監視・橋梁監視

子供・老人の見守り

畜産モニタリング里山モニタリング害獣監視

沿岸・波浪監視

農作物・農機のモニタリング


目次








Smart Sensing Processor (SSP)

CXD5602・CXD5247 の主な仕様

• 6.5mm x 6.5mm

• 高精度の測位機能

• 超低消費電力

• マルチGNSS測位機能

GPS, GLONASS, SBAS, Galileo, Beidu に対応可能

• ハイスペックのハイレゾリューションオーディオ機能

• 192 kHz/24bit ハイレゾリューションオーディオコーデック

• 192 kHz A/D コンバータを搭載

• 8チャンネルマイク入力（デジタルマイクの場合）

• フルデジタルアンプによるBTLステレオ出力

• 豊富な計算能力

• ARM® Cortex®-M4Fを6つ搭載

• 28nm FD-SOI による低消費電力駆動サポート

• CPU間通信のためのASMPフレームワーク

10

Audio Products for Music Lovers Provide New User Experience • 192kHz/24bit High-Resolution audio • 4 analog or 8 digital microphone inputs • Class-D full digital amplifier

CPU ARM® Cortex®-M4F x 6

Clock Up to 156MHz

SRAM 1.5MB

Flash Memory 8MB

Digital I/O GPIO, SPI, I2C, UART, PWM

Analog Inputs 6ch (3.3V range)

Audio I/O 8ch Digital MICs or 4ch Analog MICs, Stereo Speaker

GNSS GPS, GLONASS, BeiDou, Galileo

Others Camera IF, SD CARD, I2S

Low Power Multi Processor • 28nm FD-SOI*3 technology • 0.7V core voltage • ASMP framework*4 for the multi processor *3 Fully Depleted Silicon-On-Insulator to enable ultra-low-power features *4 Software Framework to make communication between processors

Positioning Features • Ultra low power consumption • GPS, GLONASS, QZSS

Multiple GNSS systems supported

SPRESENSE™


12

SPRESENSE ADD-ON BOARD CONCEPT SPRESENSE will realize a small IoT prototype

system with Add-on board

Storage Add-on BT/BLE Add-on

Sensor Add-on Wi-Fi Add-on


SPRESENSE Cube (Prototype)

31.8 mm

19.2 mm

31.8 mm

加速度/ジャイロ/ 地磁気/気圧/

マイク BLE (nRF52)

eMMC SPRESENSE Camera

Lithium battery

LTE Cat.M1 or ELTRES or

WiFi

SPRESENSE Cube

SPRESENSE と典型的な周辺デバイスを一つにまとめた小型プロトタイプ（試作品）


SPRESENSE Cube 詳細仕様 Device Note

プロセッサ

メインプロセッサ Sony製CXD5602GG Multicore processor、High Resolution Audio Codec Camera I/F、Low power GNSS

PMIC/Analog Sony製CXD5247GF Power Management, Class D Full Digital Amplifier Mic, Speaker I/F、Battery Charger

無線通信

BLE UART接続, 8.55x3.25mm Module

LTE Cat.M1 Sony製ALT1250 SPI接続, SIM内蔵, 11.1x11.4mm Module

ELTRES Sony製CXM1501GR UART接続, 16x16mm Module

WiFi SPI接続, 14x10mm Module

センサー

加速度/ジャイロ SPI接続

地磁気 I2C接続

気圧 I2C接続

マイク SCU接続マイク

温湿度 I2C接続

ガス I2C接続, VOC(有機化合物)を検出

GNSS CXD5602内蔵 ELTRES Variant除く（ELTRES接続時は、ELTRES内蔵のGNSSを使用）

Camera Sony製ISX012 8bit parallel接続, 8x8x4.47mm Module

メモリ SPI Flash SPI接続, 4.42 x6.58mm

eMMC Sony製BGX-4TM1D2 eMMC IF接続,4GB, 7.6x11.1mm

いずれか一つ搭載

ELTRES / WiFi Variant のみに搭載


目次








Neural Network Libraries / Console （ソニーのDeep Learningソフトウェア）

Neural Network Libraries

・Deep Learning研究開発者向けオープンソースフレームワーク

・コーディングを通じて利用→高い自由度

・最先端の研究や製品への実装にも柔軟に対応

Neural Network Console ・研究や、商用レベルの技術開発に対応したDeep

Learningツール

・様々なサポート機能→高い開発効率

・GUIによるビジュアルな操作→敷居が低い

主なターゲット

・じっくりと研究・開発に取り組まれる方

・プログラミング可能な研究、開発者

import nnabla as nn

import nnabla.functions as F

import nnabla.parametric_functions as PF

x = nn.Variable(100)

t = nn.Variable(10)

h = F.tanh(PF.affine(x, 300, name='affine1'))

y = PF.affine(h, 10, name='affine2')

loss = F.mean(F.softmax_cross_entropy(y, t))

主なターゲット

・特に開発効率を重視される方

・はじめてDeep Learningに触れる方

学習エンジンとして Neural Network Librariesを利用


Neural Network Console

商用クオリティのDeep Learning応用技術（画像認識機等）開発のための統合開発環境コーディングレスで効率の良いDeep Learningの研究開発を実現

クラウド版（CPU 10時間まで無償） Windows版（無償）

dl.sony.com

インストールするだけ、もしくはサインアップするだけで本格的なDeep Learning開発が可能

成果物はオープンソースのNeural Network Librariesを用いて製品、サービス等への組み込みが可能


目次







19

SPRESENSE x Neural Network Console

Sony Neural Network Console https://dl.sony.com/ i. Input gathered image

data for training

ii. Design a neural network iii. Train the neural network iv. Produce the trained data

v. Install the network and the trained data

vi. Start the recognition

https://www.youtube.com/watch?v=vfqV01VHSn8




エッジ認識アルゴリズム開発環境

認識アルゴリズム開発環境エッジ認識 IoT 学習データ収集

使うセンサを選択するだけ簡単センサーロガー

開発した機械学習アルゴリズムを手間なく実行可能な実行環境

学習データの構築・ラベリングツール機械学習アルゴリズムの設計/評価環境

画画画

画像処理

センサ処理

音声処理

信号処理ライブラリ

認識アルゴリズム

ラベリングツール

行動加速度, ジャイロ

位置 GNSS

気圧, 地磁気

音 MIC

画像 Camera

画画画 eMMC

行動加速度, ジャイロ

位置 GNSS

気圧, 地磁気

音 MIC

画像 Camera

認識結果

解析・活用

認識アルゴリズム

Cloud


エッジ認識アルゴリズム開発環境

• Annotation Tool • センサーロガーで記録したセンサーデータに

ラベリングを行うためのツール • センサーと同時にスマホやカメラで録画した

動画を確認しながらラベリングが可能

Export DNN

model

Transpile

C source code

SVM/RF model

Export

• 機械学習アルゴリズムの開発・移植 • DNN: Neural Network Console / Libraries で

設計・学習したモデルの実行に対応 • Random Forest/SVM:

scikit-learn (Python 用機械学習ライブラリ) で設計・学習したモデルの実行に対応


DNN 画像認識フィージビリティスタディ

タスク種別応用例 1 クラス 10 クラス 100+ クラス

識別:画像全体を元にカテゴリを推定

著名な DNN をそのまま動かせることを確認

(手書き文字識別など)

検出:どこに何があるかまで検出

小型のDNN を

SSP向けに設計

することで実現可能

ピクセル単位識別

dog

cat bird ...

dog cat

定点観測旧式メータ読取

ナンバープレート認識顧客分析

ドローン自動運転

少多リソース必要量

少

多

リソース必要量

10 クラスオーダーの ”識別” に加え、1クラス “検出” “ピクセル単位識別” が可能

ID: CXD5602 Gender: female,

Age: 25, Frequency: 4 time / week

Point: 128


SPRESENSE で動作する認識アルゴリズム例

Circle Twist

Screw (Punch) Non-valid gesture 加速度+ジャイロ

6軸データ

トマト検出・生育度判別人物検出

ジェスチャー認識

車両 “有”

車両 “無”

車両有無識別

ナンバープレート検出・切出

ハンドサイン識別

※ ここに挙げた例は、いずれも Neural Network Libraries/Console で設計・学習した DNN を使用しています。


車両有無識別 (1クラス識別)

• 車両有無識別 • VMMR db の車画像で学習 • 車有り：認識率約 98%

車無し：80% について尤度 0.2 以下 • FP32 シングルコアで 0.34 秒

車両有無識別 DNN

0.0~1.0 (車両有無尤度)

JPEG resize

resize/ Grayscale

モデル容量 90KB (FP32)

50KB (FIXED16) 30KB (FIXED8)

1280x960 (JPEG 約 125KB)

(BMP にすると 3.5MB)

160x120 (BMP 56KB)

32x24 (BMP 0.8KB)

車有り画像サンプル：

車無し画像サンプル：


ナンバープレート検出 (1クラス検出)

• ナンバープレート検出 • 合成画像(右下参照)中心に学習。mean IoU 0.8

(現実の FT 画像に対しては mean IoU 0.5)

• FP32 シングルコアで 1.72 秒 • DNN のメモリ使用量はパラメータ＋バッファで約

560KB (FP32)

1280x960 (JPEG 約 125KB)

(BMP にすると 3.5MB)

160x120 (BMP 56KB)

プレート検出 DNN

80x60 (BMP 4.7KB)

JPEG resize

resize/ Grayscale

JPEG crop


105KB (FIXED16) 60KB (FIXED8)


ハンドサイン識別 (4クラス識別)

• ハンドサイン識別 • 学習データの準備 (ユーザの手の画像を収集) 、

Neural Network Console での DNN の構築・学習・評価、実機での認識確認、の開発ステップを体験できるチュートリアル

• MNIST/LeNet (10クラス識別) を 4クラス識別に小型化 • SPRESENSE+ISX-012 で取得した手画像で学習 • FP32 シングルコアで 0.07 秒

(※ LCD 表示等のバックグラウンドで実行している際の認識時間) LeNet を 4クラス識別に小型化

LCD (320x240)

320x240 (YUV422)

320x240 (8bit gray)

カメラ画像 (ISX-012)

40x30 28x28

4-class Classification

DNN

Rock/Paper/ Scissors/ No-Hand

学習データ収集モード

識別モード

YUV422→ RGB565

Grayscale (YUV→Y)

Resize Crop

グー・チョキ・パーを認識

Maker Faire にも出展



トマト検出・識別 (1クラス検出・4クラス識別) (Yolo-like)

• トマト検出・識別 (Yolo-like) • 合成画像中心に一部実写画像も混ぜて学習 • DNN のメモリ使用量はパラメータ＋バッファで約 430KB

(FIXED16 の場合) • FIXED16 シングルコアで 1.85 秒

ROI (center_x, center_y, width, height),

color class (0～3)

resize

320x240 96x96

トマト検出・識別

DNN


115KB (FIXED16)


トマト検出・識別 (1クラス検出・4クラス識別) (Segmentation)

• トマト検出・識別 (Segmentation) • 合成画像中心に一部実写画像も混ぜて学習 • DNN のメモリ使用量は

パラメータ＋バッファで約 790KB (FP32) • FP32 シングルコアで

1.87 秒 (Segmentation) + 0.13 秒 (成熟度識別) x 検出トマト数

↑ Segmentation DNN

↑ 成熟度識別 DNN

color class (0～3)

resize

320x240

80x60

トマト検出 DNN (Segmentation)


ROI (center_x, center_y, width, height)

cutout & resize

成熟度識別 DNN


28x28


ジェスチャ識別 (4クラス識別)

• ジェスチャ識別 • 画像ではなく、加速度センサ＋ジャイロセンサを使ったジェスチャ認識 • 各ジェスチャについて 1 分程度連続動作させて取得したデータで学習 • DNN のメモリ使用量はパラメータ＋バッファで約 110KB • FP32 シングルコアで 0.008 秒

ジェスチャ識別 DNN

Circle Twist

Screw (Punch) Non-valid gesture モデル容量 90KB (FP32)

加速度+ジャイロ 6軸データ

(1秒分 = 32サンプル)


推論時間・使用メモリまとめ MAC 数量子化モデルサイズ

(.nnb) 総メモリ使用量推論時間推論時間 (DNN_RT_MP=y)

1 コア 1 コア 2コア 3コア 4コア 5コア車両有無識別 (1クラス識別)

2261359 FP32 90KB 220KB 0.34 0.30 0.23 0.20 0.19 0.19 FIXED16 50KB 127KB 0.36 0.31 0.25 0.22 0.21 0.21 FIXED8 30KB 85KB 0.27 0.23 0.21 0.19 0.19 0.19

ナンバープレート検出 (1クラス検出)

15519888 FP32 195KB 557KB 1.72 - - - - - FIXED16 105KB 467KB 1.73 1.53 1.07 0.94 0.85 0.82 FIXED8 60KB 422KB 1.29 1.04 0.82 0.74 0.70 0.70

ハンドサイン識別 (4クラス識別)

256198 FP32

40KB 74KB 0.07 0.033 0.025 0.023 0.023 0.023

トマト検出・識別 (1クラス検出・ 4クラス識別) (Yolo-like)

13895424 FP32 170KB 482KB 1.68 1.55 1.13 1.00 0.94 0.93 FIXED16 115KB 427KB 1.85 1.63 1.22 1.12 1.03 1.02 FIXED8 - - - - - - - -

トマト検出・識別 (1クラス検出・ 4クラス識別) (Segmentation)

1113800 FP32 50KB + 80KB

790KB 1.87 + 0.13x(n)

- - - - -

FIXED16 - - - - - - - - FIXED8 - - - - - - - -

ジェスチャ識別 35008 FP32 90KB 110KB 0.008 - - - - -


目次








ELTRES™ （ソニーのLPWA)


見通しで300Km以上を達成

富士山頂 - 妙法山 (322km)

送信電力20mW, ¼λ ホイップアンテナ使用


山間部における通信テスト結果と電波伝搬シミュレーションの比較

受信局位置北緯 35°55'25.55" 東経 138° 5'49.93" 標高 937m アンテナ高さ：5m

受信局

回折波・反射波により想定以上に広い受信範囲となることを確認

>-100[dBm] >-110[dBm]

>-120[dBm] >-130[dBm]

シミュレーションはフリーウェアの電波伝搬シミュレーターRadio Mobileを使用国土地理院の地形データを元に、直接波のみを考慮したシミュレーション結果

長野県伊那市高遠町地区


目次







(2019.3月現在)

『サイレントボイスとの共感』地球インクルーシブセンシング研究拠点

IoT/AIセンシングにより「人・社会・自然の間のつながり」を深め、千年続く豊かで寛容な共存社会を目指す

地球を取り巻く限られた環境の中で永続的な繁栄を目指す人類にとって、これからは人類が地球とともに豊かになっていく共存社会が必要となります。人･社会･自然の間にあるつながりに気づきを与える最先端のIoT/AIセンシング技術を創出し、人の行動の変容を促して新たなつながりと循環を創ることにより、人も地球も豊かで寛容な共存社会の実現を目指します。

場のサイレントボイスとの共感｢人と社会の間」ではICT技術の急拡大とグローバル化の一方、コミュニケーションの脆弱化が問題となっており、寛容な共存社会実現のために、多様な人々の共感・共創を醸成することが重要な課題です。集団におけるコミュニケーションの特徴を可視化することで、｢つながり」への気づきと学びを促し、多様な人々の相互理解を支援する仕組みを構築します。

豊かな共存社会実現のために、｢社会と自然の間」では自然からの恵みである食の倫理的生産・消費が必須であり、たんぱく質の供給源として重要な畜産においてはアニマルウェルフェアの推進が急務です。経済面や資源循環面で大きなインパクトを有する牛と、生産者・消費者・里山との「つながり」を深め、倫理的生産・消費を推進する仕組みを構築します。

動物のサイレントボイスとの共感


まとめ

サステイナブル社会へ向けては、地球上の様々な対象をセンシングし、不都合な

事態・異変の予兆を低環境負荷・低コストで検知し、人に必要な行動を促すメッ

セージに変換し知らせることが求められる

無線通信電力を抑えるため、エッジデバイスで高度な認識、超情報圧縮が必要と

なる

DNN専用エンジンを搭載しなくとも、電力効率の高い汎用CPUでそこそこのローパ

ワー認識器は実現可能

エナジーハーベストへ向けたデバイスの更なる省電力化に加え、AIを多くの対象

領域に広げるには、異業種間の繋がりや、多分野における大学・研究機関との協

業が求められる

SONYはソニー株式会社の登録商標または商標です。

各ソニー製品の商品名・サービス名はソニー株式会社またはグループ各社の登録商標または商標です。その他の製品および会社名は、各社の商号、登録商標または商標です。

Documents

サステイナブル社会の実現へ向けたエッジAI コンピューティング · 受信局 山野・山林の ... SPRESENSE will realize a small IoT prototype system with

サステイナブル社会の実現へ向けたエッジAI コンピューティング · 受信局山野・山林の ... SPRESENSE will realize a small IoT prototype system with