生物の動きを模倣する生成AIの基盤技術を開発 ─ 深層強化学習と模倣学習を融合 ─

2024年5月 7日 14:00 | プレスリリース・研究成果

【本学研究者情報】

〇大学院工学研究科ロボティクス専攻
教授　林部　充宏
研究室ウェブサイト

【発表のポイント】

環境適応と運動模倣が可能な中枢パターン生成器^（注¹^）の学習を実現する新しい運動生成手法AI-CPGを開発しました。
中枢パターン生成器と模倣学習を組み合わせることで運動速度の修正が容易で生物や人間の運動模倣に基づく自然な運動生成が可能です。
深層強化学習^（注²^）と模倣学習^（注³^）を組み合わせているため、膨大な探索処理を回避することができ、未知の環境への適応が可能です。
模倣した歩行と走行の運動を再現できるだけでなく、データがない運動周波数の運動生成を行うこと、歩行から走行まで連続的に運動を遷移させること、また学習時と異なる不安定な床面への環境適応性があります。

【概要】

近年、深層強化学習や模倣学習をそれぞれ用いたロボット制御の応用研究が活発に行われ注目されています。深層強化学習を活用する場合には環境適応可能な運動が生成できるものの、広大な入力空間の探索に膨大な計算コストを要することが問題となります。一方、模倣学習を用いる場合には学習した運動に近い範囲に環境適応性が制限されるという問題が一般的に知られています。

東北大学大学院工学研究科の林部充宏教授とGuanda Li（グアンダリ）大学院生およびスイス連邦工科大学ローザンヌ校（EPFL: École polytechnique fédérale de Lausanne）の Auke Ijspeert（オウケイシュパー）教授らの研究グループは、深層強化学習と模倣学習の両面の利点を生かすことが可能な新しい運動生成の手法（AI-CPG）を開発することに成功しました。

本研究成果は、ロボット分野の国際学術誌IEEE Robotics and Automation Lettersに2024年4月15日付けで掲載されました。

図1.　上位中枢からの速度調整コマンドにより中枢パターン生成器（CPG）と反射ネットワークが協調している様子（a）、全体の制御フレームワーク（b）。

【用語解説】

注1. 中枢パターン生成器（CPG）：感覚入力や上位中枢からの神経指令なしに周期的な運動パターンを生成する神経回路網。CPGのモデルとして、センサ入力無しでも振動が可能な振動子を考えるグループと、センサ入力があって初めてパターンを生成できる非振動子を考えるグループがある。

注2. 深層強化学習：神経細胞の仕組みを再現したニューラルネットワークを用いた方法を深層学習（ディープラーニング）という。強化学習は正しい答えをネットワークに与える代わりに評価（報酬）を与えて学習させる。深層学習と強化学習を組み合わせた手法が深層強化学習。強化学習では学習が困難な複雑な問題に対しても学習であるが、膨大な空間探索による計算コストが問題となっている。

注3. 模倣学習：機械学習の一種であり、教師あり学習の一形態である。この手法では、エージェントが人間の行動を観察し、それを模倣することで学習する。

詳細（プレスリリース本文）

問い合わせ先

（研究に関すること）
東北大学大学院工学研究科ロボティクス専攻
教授林部充宏
TEL: 022-795- 6970　Email: hayashibe*tohoku.ac.jp
（*を@に置き換えてください）

（報道に関すること）
東北大学大学院工学研究科情報広報室
担当沼澤みどり
TEL: 022-795-5898　Email: eng-pr*grp.tohoku.ac.jp
（*を@に置き換えてください）

sdgs_logo

sdgs04 sdgs09

東北大学は持続可能な開発目標（SDGs）を支援しています

2024年 | プレスリリース・研究成果

生物の動きを模倣する生成AIの基盤技術を開発 ─ 深層強化学習と模倣学習を融合 ─

問い合わせ先