卒業生とその進路

エッジAIハードウェアに向けたニューラルネットワークの新学習アルゴリズムとその低電力アーキテクチャに関する研究


金子 竜也

2022 年度 卒 /博士(工学)
令和3〜4年度 日本学術振興会特別研究員

博士論文の概要

本研究は、人工知能(AI)の学習に用いられる誤差逆伝播法と最適化手法、特にエッジ端末で学習を行うための軽量化アルゴリズムとそのアーキテクチャに関するものである。

現在、AIは画像認識、翻訳、画像生成等、種々のタスクにおいて、従来の手法に対して優位性を示している。これらの情報処理は、エッジ端末などから収集された大量のデータを基に、処理能力の高いAIエンジンを持つデータセンタ等において集中的に行われている。AIの性能(認識能力等)は、そのモデルの複雑度およびデータ量と密接な関係を持ち、AIの高性能化とともに膨大となる演算処理を効率的に行うためのアルゴリズムやアーキテクチャ研究の必要性が高まっている。一方で、我々の身の回り(エッジ)でAIを活用することを考えた場合、データセンタでの処理に偏重したAIシステムでは、セキュリティ(機密・個人情報等を含むデータがクラウドを流れてしまう)、リアルタイム性(エッジでの電力制約によりクラウドへの常時接続は困難であるため、間欠動作による遅延が発生する)、通信帯域(AIの学習には大量のデータが必要であり通信帯域を圧迫する)、といった問題が予測される。これらの問題に対応するために、クラウド上のAIに大きく依存せずに、ユーザの身近なところで(可能な限りオフライン環境下で)AI処理を行う「エッジAI」の実現が期待されている。

AIの演算処理は「推論処理」と「学習処理」に大別でき、AIの恩恵を得るためにはどちらの処理も必須である。そのうち、推論処理(主に積和演算、畳み込み演算と非線形関数による活性化処理)については多くのエッジAIソリューションが存在する。一方、エッジでの学習処理(誤差逆伝播法およびパラメータの最適化手法)については、未だ汎用プロセッサを中心としたソフトウェア的な手法に留まっており、学習処理のコスト(学習にかかる時間、消費電力、ハードウェア資源)は極めて高い。そこで本研究では、電力やハードウェア資源が制限されるエッジにおいて、学習処理を可能とする新規アルゴリズムとそれらを実装するアーキテクチャの構築を目的とした。

最初に、ニューラルネットワークの最も基本的な学習方法である誤差逆伝播法と確率的勾配降下法のハードウェア指向アルゴリズムを構築した。推論処理のみを行う従来のエッジAI研究では、「推論処理」の演算における数値表現方式を浮動小数点方式から固定小数点方式へと変更、または固定小数点方式のビット数を削減することで、演算の軽量化を実現してきた。本研究では、推論処理のみならず「学習処理」における演算のビット精度を制限する(固定小数点方式とする)ことで演算を軽量化した。学習処理を行う演算アーキテクチャを構築して評価した結果、性能を維持するために必要となる最低ビット数、および提案アーキテクチャの並列度を可変にすることで広範な用途に対応できることを明らかにした。

次に、誤差逆伝播法を軽量化する手法を提案し、そのアーキテクチャ構築を行った。上述の固定小数点方式の導入により演算を軽量化した結果、推論処理と学習処理では要求される最低ビット数が異なり、学習時にAI性能に影響を与えるまで変化するパラメータ数は極小数であることを明らかにした。このことは、パラメータを保存するメモリ容量や、パラメータの更新(メモリへの書き込み)に必要な電力等の大部分は無為に消費されていることを意味する。この発見に基づき、AI性能を維持したまま、誤差逆伝播法のビット数(メモリ容量)、およびメモリへの書き込み回数を削減可能な新アルゴリズムを構築した。さらに、演算に必要なハードウェア資源量が少ないエッジAI向け学習アーキテクチャを構築しFPGAに実装して評価した。既存手法と比較して、使用メモリ量を49.8\%削減可能であること、およびメモリアクセスに係る消費電力を0.0017倍に削減可能であることを示した。

上述の研究・成果はディジタル回路を対象としたものであるが、次の挑戦として、アナログ回路を導入した「コンピューティングインメモリ(Computing in Memory: CIM)デバイス」のための誤差逆伝播法、およびCIMデバイスを用いて学習処理を行うアーキテクチャの構築を行った。AIは多量の積和演算を必要とするため、従来のノイマン型の計算機でAI演算を行うと、プロセッサとメモリ間のデータ転送に係るボトルネックにより演算に膨大な時間がかかってしまう。この問題の解消に向けた取り組みとして多量のデータ(パラメータ)を保存しているメモリ上で積和演算を行うCIMアーキテクチャが注目されている。本研究では、非ノイマン型アーキテクチャの一種である「ReRAMを用いたCIM AIデバイス」の学習機能の実現に向けた新規アルゴリズムの開発を行った。通常の誤差逆伝播法は、活性化前のアナログ値の読み出しを必要とするため、多くのCIM AIデバイスには適さない。そこで、ディジタル誤差逆伝播法(Digital BP)に着目し、その弱点(性能低下)を補うニューラルネットワークの構造を新たに考案した。この新構造によって、従来のDigital BPでは不可能だった線形回帰や多クラスの識別が可能になることを示した。さらに、Digital BPの演算を行うアーキテクチャ構築とそのFPGA実装を行い、演算コアの消費電力を10 mW以下にできることを示した。

最後に、軽量性と高性能を両立する最適化手法の開発を行った。従来のエッジAI向け学習アルゴリズム・アーキテクチャ研究では、最適化手法として主に確率的勾配降下法が用いられている。確率的勾配降下法は、極めて単純な最適化手法であるが故に学習の収束性や安定性が悪い。より高度な最適化手法は、大容量のメモリと高度な演算処理を必要とするため、エッジAI領域ではこれまで確率的勾配降下法を採用せざるを得ない状況にあった。そこで本研究では、メモリ容量と演算量を削減する新規最適化手法のアルゴリズムを構築した。ディジタル処理では一般的に精度を落とす要因となる「量子化」を積極的に利用する(固定小数点による量子化と、乗除算をビットシフトで代替できる対数量子化を組合せる)ことで、最上ランクの最適化手法(RMSProp等)と同程度の性能を持ちつつ、省メモリ・省リソースの最適化ハードウェアが構築可能であることを示した。高性能な最適化ハードウェアをエッジAIに組込むことができれば、高速な学習の収束性、すなわち学習回数を削減できる。一回の学習に係るリソースを減らして低電力化するという従前のアプローチとは異なり、学習回数(ReRAMの書き込み回数)を減らすことで低電力化する。提案手法は、従来手法と比べて約70%の省メモリ化と4倍の高速化を達成可能であることを示した。

学術論文

  1. Kaneko T., Momose H., Suwa H., Ono T., Hayata Y., Kouno K., and Asai T., "On the control of computing-in-memory devices with resource-efficient digital circuits towards their on-chip learning," Nonlinear Theory and Its Applications, vol. E14-N, no. 4, pp. 639-651 (2023).
  2. Yamagishi Y., Kaneko T., Akai-Kasaya M., and Asai T., "Holmes: A hardware-oriented optimizer using logarithms," IEICE Transactions on Information and Systems, vol. E105-D, no. 12, pp. 2040-2047 (2022).
  3. Suzuki J., Kaneko T., Ando K., Hirose K., Kawamura K., Chu T.V., Motomura M., and Yu J., "ProgressiveNN: Achieving Computational Scalability with Dynamic Bit-Precision Adjustment by MSB-first Accumulative Computation," International Journal of Networking and Computing, vol. 11, no. 2, pp. 338-353 (2021).
  4. Yamagishi Y., Kaneko T., Akai-Kasaya M., and Asai T., "Hardware-oriented deep reinforcement learning for edge computing," Nonlinear Theory and Its Applications, vol. E12-N, no. 3, pp. 526-544 (2021).
  5. (研究紹介)百瀬 啓, 金子 竜也, 浅井 哲也, "脳型ハードウェア作りを実機で体験するAI Circuit Lab," トランジスタ技術, vol. 2021, (2021), in press.
  6. (解説記事)百瀬 啓, 金子 竜也, 浅井 哲也, "マイコンにAIを実装するための基礎知識," トランジスタ技術, vol. 2020, no. 11, pp. 169-179 (2020).
  7. (解説記事)金子 竜也, "ハードウェアAI作りの第一歩!人工知能の基本アルゴリズム," トランジスタ技術, vol. 2020, no. 10, pp. 30-34 (2020).
  8. (解説記事)金子 竜也, "ハードウェアAI製作に使うアーキテクチャの基本," トランジスタ技術, vol. 2020, no. 10, pp. 53-56 (2020).
  9. Momose H., Kaneko T., and Asai T., "Systems and circuits for AI chips and their trends," Japanese Journal of Applied Physics, vol. 59, no. 5, 050502 (2020).
  10. Kaneko T., Orimo K., Hida I., Takamaeda-Yamazaki S., Ikebe M., Motomura M., and Asai T., "A study on a low power optimization algorithm for an edge-AI Device," Nonlinear Theory and Its Applications, vol. E10-N, no. 4, pp. 373-389 (2019).
  11. Kaneko T., Ikebe M., Takamaeda-Yamazaki S., Motomura M., and Asai T., "Hardware-oriented algorithm and architecture for generative adversarial networks," Journal of Signal Processing, vol. 23, no. 4, pp. 151-154 (2019).

特許

  1. 浅井 哲也, 山岸 善治, 金子 竜也, "最適化装置及び最適化方法並びに最適化用プログラム," 特願2022-011651(2022年1月28日), 特開2023-110297(2023年08月09日).

国際会議

  1. Kaneko T., Momose H., and Asai T., "On-Device Training Architecture for Analog ReRAM Neural Networks with Digital BP," MEMRISYS 2022, Boston Marriott Cambridge Cambridge, Cambridge, USA (Nov. 30-Dec. 2, 2022).
  2. Yamagishi Y., Kaneko T., Akai-Kasaya M., and Asai T., "Hardware design of the target Q-network for edge-oriented deep reinforcement learning," RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing 2021, pp. 30-34, Online (Mar. 1-3, 2021).
  3. Kaneko T., Momose H., and Asai T., "An FPGA accelerator for embedded microcontrollers implementing a ternarized backpropagation algorithm," 2019 International Conference on Reconfigurable Computing and FPGAs (ReConFig 2019), pp. 41-48, Grand Park Royal Cancun Caribe, Cancun, Mexico (Dec. 9-11, 2019).
  4. Momose H., Kaneko T., and Asai T., "An FPGA accelerator for Arduino implementing a ternarized backpropagation llgorithm," 2019 International Conference on Reconfigurable Computing and FPGAs (ReConFig 2019) demo session, Grand Park Royal Cancun Caribe, Cancun, Mexico (Dec. 9, 2019).
  5. Kaneko T., Ikebe M., Takamaeda-Yamazaki S., Motomura M., and Asai T., "Hardware-oriented algorithm and architecture for generative adversarial networks," The 2019 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing, pp. 446-449, Hilton Waikiki Beach Hotel, Honolulu, USA (Mar. 4-7, 2019).
  6. Kaneko T., Ikebe M., Takamaeda-Yamazaki S., Motomura M., and Asai T., "Ternarized backpropagation: a hardware-oriented optimization algorithm for edge-oriented AI devices," The 7th RIEC International Symposium on Brain Functions and Brain Computer, Research Institute of Electrical Communication, Tohoku University, Sendai, Japan (Feb. 22-23, 2019).
  7. Kaneko T., Ikebe M., Takamaeda-Yamazaki S., Motomura M., and Asai T., "A study on ternary back propagation algorithm for embedded egde-AI processing," Joint workshop of UCL-ICN, NTT, UCL-Gatsby and AIBS: Analysis and Synthesis for Human/Artificial Cognition and Behaviour, Seaside House, Okinawa Institute of Science and Technology, Okinawa, Japan (Oct. 22-23, 2018).

受賞

  1. 金子 竜也, 令和4年度北海道大学大学院情報科学院 - 学院長賞(博士), 2023年3月23日.
  2. 金子 竜也, "エッジAIに向けた三値バックプロパゲーション法とそのFPGA実装," 電子情報通信学会 非線形問題研究会 - 2019年度非線形問題研究会発表奨励賞, 2020年5月15日.
  3. 金子 竜也, 北海道大学大学院情報科学研究院 - 2019年度研究院長賞(修士), 2020年3月25日.
  4. Kaneko T., Yamagishi Y., Asai T., and Momose H., "Reconfigurable AI shield for embedded microcontrollers," Maker Faire Roma 2019 - MAKER OF MERIT 2019, Oct. 20, 2019.
  5. Kaneko T., "Hardware-oriented algorithm and architecture for generative adversarial networks," The Research Institute of Signal Processing - NSCP'19 Student Paper Award, Mar. 7, 2019.

国内学会

  1. 金子 竜也, 山岸 善治, 百瀬 啓, 浅井 哲也, "エッジAIのオンライン学習に向けたハードウェア指向対数量子化オプティマイザの提案," 電子情報通信学会複雑コミュニケーションサイエンス研究会, 北海道 ルスツリゾートホテル&コンベンション, (ハイブリッド開催), 2022年3月27日.
  2. 山岸 善治, 金子 竜也, 赤井 恵, 浅井 哲也, "エッジ学習に向けたモーメンタム最適化法のハードウェア設計," 2021年電子情報通信学会ソサイエティ大会, (オンライン開催), 2021年9月14-17日.
  3. 金子 竜也, 山岸 善治, 百瀬 啓, 浅井 哲也, "アナログAIデバイスのオンライン学習に向けた学習アルゴリズムとそのFPGAアーキテクチャ," 第34回 回路とシステムワークショップ, 北九州国際会議場, (小倉), 2021年8月26-27日.
  4. 金子 竜也, 百瀬 啓, 浅井 哲也, "不揮発アナログAIデバイス(RAND)のオンライン学習制御システム実装とその評価," LSIとシステムのワークショップ2021, (オンライン), 2021年5月10-11日.
  5. 山岸 善治, 金子 竜也, 百瀬 啓, 赤井 恵, 浅井 哲也, "強化学習を用いたマイコン制御ロボットアーム間の物体移動評価," 2021年電子情報通信学会総合大会, (オンライン開催), 2021年3月9-12日.
  6. 金子 竜也, 山岸 善治, 百瀬 啓, 浅井 哲也, "アナログAIチップのオンライン学習に向けた改良型デジタルバックプロパゲーション法の提案," 第30回日本神経回路学会全国大会, (オンライン開催), 2020年12月2-5日.
  7. 金子 竜也, 浅井 哲也, "エッジAIコンピューティングに向けた低電力・低リソース化学習アルゴリズムとそのFPGA実装," 東北大学電気通信研究所共同プロジェクト研究会, 東北大学電気通信研究所, (仙台), 2020年2月5日.
  8. 金子 竜也, 山岸 善治, 百瀬 啓, 浅井 哲也, "エッジAIに向けた三値バックプロパゲーション法とそのFPGA実装," 電子情報通信学会 非線形問題研究会, 宮古島マリンターミナル, (沖縄), 2020年1月23-25日.
  9. 金子 竜也, 高前田 伸也, 本村 真人, 浅井 哲也, "オンライン学習を行う階層型ニューラルネットワークハードウェアの低電力化に向けた三値バックプロパゲーション法の提案," LSIとシステムのワークショップ2019, 東京大学生産技術研究所, (東京), 2019年5月13-14日.
  10. 金子 竜也, 折茂 健太郎, 池辺 将之, 高前田 伸也, 本村 真人, 浅井 哲也, "敵対的生成ネットワークのハードウェア指向アルゴリズムとそのアーキテクチャの検討," 2018年電子情報通信学会 NOLTAソサイエティ大会, 京都テルサ, (京都), 2018年6月9日.