LinkedIn
  • 日本語
  • English
  • 简体中文

AI半導体の未来、NPU

世界的に1日に新たに生産されるデータ量は2020年で約40ZB(ゼータバイト)を達成し2025年にはその4倍の約160ZBのデータが発生するといわれております。 これは64GBモデルのiPhoneが約6200億台分を合わせた容量で、既存のコンピューター技術では短時間内に処理できないほど明らかに大量です。 このような大量のデータの中から有効な情報を抽出するために開発されたのが‘ディープラーニング’技術です。


                             (出典)総務省

従来のマシンラーニングでは、開発者が学習しようとするデータのさまざまな特徴を直接分析し、機械に入力していました。
しかし、ディープラーニングでは人間の脳のように複数のニューラルネットワークから機械が自動的に特徴を抽出して学習します。
各ニューロンは、前の層からの入力値とフィルタに重みを掛けて、合算した出力値を次の層に移します。

つまり、ディープラーニング の実行には畳み込み演算(convolution)が必要です。

ディープラーニングの過程

ディープラーニングは画像とフィルターを掛け算した結果を足し集める演算を通じて簡単な特徴を抽出して1つの合成レイヤーを作ります。
次に、サブサンプリング(sub-sampling)を通じて近接しているデータ間の対比率を高め、処理しなければならないデータの量を減らしつつ、これらの特徴からより複雑な特徴を抽出する新しいレイヤーを追加します。このように複数の合成レイヤーからどんどん細かい特徴を引き出し、イメージ分類の正確性を高めます。
上のイメージは一部の演算をしたものですが、ディープラーニング ネットワークの学習には最小500ピクセル以上の画像と何百種類か何千単位のフィルタを使うので、たくさんの畳み込み演算が必要になります。

大量計算に特化したGPUはディープラーニング に最適

現在、CPUのは10年で大きく進化してマルチコアーは当たり前で、最大16GT/sの速度まで発展しましたが、ディープラーニングのところではGPUが選択される状況です。
その理由として、CPUとGPUは構造が違うからです。

 

CPUは「中央処理デバイス」として、コンピューターの作業に優先順位を指定して転換するなどコンピューターを管理する役割を果たします。つまり、優先順位をつけたタスクから必ず一度に1つの処理のみをして、演算の結果がメモリに保存するようにしています。そのためにCPUの構造はキャッシュメモリが占める領域が広く、相対的にALU(算術論理装置)が占める領域は狭いです。

それに対してGPUは単純な形態の大量計算する時、システムとメモリを共有することで発生するボトルネックを防ぐため、CPUから独立した半導体です。GPU内のコアにメモリが割り当てられて、キャッシュメモリは狭く、ALUの領域は広い構造になっています。

現在PCで使用されているCPUのコアは通常4~10個程度であり、threadを2倍程度増やすことができます。 一方、GPUの場合、最近だと数千コアが普通でCPUとGPUのコア数の差は数百倍以上になるので、ディープラーニングで発生する大量の畳み込み演算(convolution)には大量計算に特化したGPUが最適です。

 

GPUを超えたNPUの登場で次世代ディープラーニングが実現

AIを処理するのにGPUの並列処理に効果的ですが、最大の短所は価格です。
また、必要ない機能を多く含まれており、非効率的でもありました。特に数千個のコア集約したGPUは並列演算中に大量の熱を発生します。もし、GPUが自動運転車、ロボット、ビール監視などで熱を発生してシステムが壊れたら大きな問題です。

そこで、NPUは既存のGPUからAI処理に必要のないブロックやデータパスを除去して不要な電力消費を抑制し、高速データ伝送構造に合うように設計を改善して誕生しました。
NPUの登場によりディープラーニング技術も変わり、次世代のディープラーニング技術として「オンデバイスAI」が注目されています。

既存のディープラーニングはクラウドサーバーを通るため、ネットワークを通じた情報流出、遅延問題などが発生する可能性がありました。しかし、NPUを使ってデバイス内でディープラーニング技術を駆動すれば、セキュリティとリアルタイム実行はもちろん、低電力の実現、莫大なサーバー費用を節減できます。

現在、ノート型パソコン、スマートフォンにもすでにNPUは使われています。
まだ汎用性は低いですが、今後スマートフォンだけでなくロボット、スマートホーム、自動運転などの幅広い分野で活用できると予想しています。




最大1秒に1TBで動作できるNPU搭載で高速AI処理

ToradexVerdin iMX8M Plus

ToradexのVerdin iMX8M Plusは最大1.8GHzで動作、最大2.3TOPSの性能を持つNPUが動くNXP社のi.MX 8M Plusを搭載しております。
Toradexが提供するTensorFlowなど、よく利用される機械学習フレームワークとのインテグレーションで、より簡単にディープラーニングが実現できます。
その他に、最大4つのパワフルな64ビットArmv8 Cortex-A53コアが搭載されて最大動作周波数は1.8GHzで動作はもちろん、最新のグラフィカルユーザーインターフェースのLinuxを実行できます。

スペック

トラデックス製品は、特に産業機器(組み込み機器)を開発されるお客様に幅広くご好評をいただいております。具体的な製品のご紹介や製品選定のサポートは、下記よりお気軽にお問い合わせください。

↑