nakabayashi m

水中小型ヒューマノイドロボットの立位姿勢における移動行動学習

Adaptive Underwater Locomotive for Small Humanoid Robot with Standing Posture

複雑系工学講座調和系工学研究室

修士課程2年中林佑太

背景

課題

水中環境がロボットに与える影響•重量・浮量バランスの調整が必要•正確なセンサ計測が困難•流れの変化による外乱が大きく移動制御が困難

多数アクチュエータに対しての制御目標量の多様性

水中ロボットのアプリケーション

漁業における作業代替・補助港湾における点検保守

宇宙空間における作業の検証[08 F.Diot et al，ESA]

ダイバーロボット構想[04金岡他]

要求

多自由度アームによる多様な全身運動の実現

極限環境下における作業代替

ヒューマノイドロボットのような形状

[浦他]

目的

小型ヒューマノイドロボットによる水中移動行動の実現

•水中ヒューマノイドロボットモデルの立案•水中ロボットシステムの作成•水中小型ヒューマノイドロボットによる行動の実現

水中ヒューマノイドロボットモデル

FTGBWOvMf 運動方程式

M

WBG

TF

重心周りに働く慣性力によるモーメント

CGCG nfppn )(

Cn

Gp 重心位置系全体の力がかかる位置環境から受ける周りのモーメントCp

Cp

質量波浪による力抵抗力浮力重力・遠心力・コリオリの力接地面から受ける力全身動作による推進力

GG np ,

Cp fcn

を満たす領域で0B 0Gn を目標とする動作を実現

水中ヒューマノイドロボットの動作

O

ロボットの浮力設定

•ロボット本体：1.3kg•ダイバースーツ：0.6kg•重り1.0kg×4

本体質量m：5.9kg

•スーツ容量V ：4.7l 浮量ρV：4.8kg

水中質量：1.1kg

GG np ,Cp F

cn

GG np ,

Cp

F

cn

GG np ,Cp

Fcn

T

を満たす領域で00 TB

0Gn を目標とする動作を実現するf

f

f

適切な質量・重心位置の調整が必要水中ヒューマノイドロボットモデル

対象領域T>0

今回はO

ロボットシステムアーキテクチャ

AD変換ボード

ホストPC

駆動部

内界センサ

制御部

加速度データ

モータ駆動コマンド

制御信号

センサ電圧

防水スーツ manoi-AT01•高さ：34cm•17自由度

外界センサ

制御ボード

3軸加速度センサ

カメラセンサ

画像データ

ヒューマノイドロボット：有索での遠隔操作により動作(ROV)

水中ヒューマノイドロボット

動作環境

高さ600mm

幅1200mm

奥行600mm

カメラセンサ

PC・A/Dボードとの接続ケーブル

安定化電源との接続ケーブル

水槽環境水中立位姿勢

位置座標・ヨー角検出用マーカー

ロボットが全身運動を実現可能な広さと深さの水槽環境

ロボットの運動

足の動作手の動作

四肢が独立して持つ発振器と目標関節角度により運動パターンを生成

θ=0ω Θ=0

π

π/2

3π/2ω

π/2

π

3π/2

[sec])3.0( T•発振器ダイナミクス： DTit )( )7,,2,1,0( i

発振器発振器

n

itarm

n

i qtmq max)( )16,,3,2,1n( サーボモータ番号•手足の目標関節角：操作量:)(tmarm

実験

手法：強化学習

目的：立位姿勢における移動行動の実現

手法：フィードバック制御

目的：移動行動の際の全身動作の検証

四肢を使った行動をQ学習により実現

実験2

実験1 目的：固定パターン動作に基づく運動による移動行動検証

2地点間移動タスクによる検証

実験1 PD制御による移動行動実現

T

TtdtdKDtdKPtm

T

TtdtdKDtdKPtm xx

xxxx

)()()()(

)()()()(

X軸 :

Θ軸 :

:

:

:

ΔT

d(t)

m(t)

微分項のパラメータ

比例項のパラメータ

:

:

KD

KP

手足毎の操作量

目標位置に対する偏差

サンプリング時間(1.2s))()()(

)()()(

tmtmtm

tmtmtm

xr

xl

制御目標(左右)

位置偏差と出力値の変化を考慮

ゴール地点

カメラの視野限界

θX x

y

•発振器固有振動数： T

2

1

0,,0,0 左足右足左手右手 DDDD

動作設定

n

itarm

n

i qtmq max)(

)16,,3,2,1n( サーボモータ番号

•発振器位相遅れ：

•手足の目標関節角：

水槽底面xy平面

PD制御結果

xy平面上の移動軌跡

Xの時間推移

θの時間推移2地点間移動行動を実現

3試行の結果

実験2 強化学習による移動行動実現

•発振器固有振動数(大小)：TT

2

1

,4

1

DD ,0

行動状態数(全身)

)4096(2 43 状態

n

it

nn

it

n

i qqqqi maxmax ,

2

1

)16,,3,2,1n( サーボモータ番号

•発振器位相遅れ(大小)：

•目標関節角(大小)：

動作設定

動作状態数(各腕)

)8(23 状態

車輪型ロボットによるサッカータスクに対してQ学習適用[浅田他]

ゴールとロボット距離d(2段階)

ゴールとロボットの相対角度θ(3段階)

•遠距離領域：d > 250mm•近距離領域：d < 250mm

•中央：-PI/16 < θ < PI/16•左：θ < -PI/16•右：θ > PI/16

強化学習(環境状態)

ゴール地点(ゴール範囲)

カメラの視野限界

θ

d

ロボットがカメラの視野範囲にある場合

ロボットがカメラの視野範囲にない場合

ゴール消失角度θ(3段階)

環境状態を9状態に分割

合計6状態

合計3状態

x

y近距離領域

遠距離領域

水槽底面xy平面

環境状態設定

強化学習(Q学習)

Q(s, a) <- Q(s, a) + α*r + γmax a’ Q(s’, a’) – Q(s, a) ]

状態 s ∈ S, 行動 a ∈ A, 報酬 rQ値更新式

α=0.1，γ＝0.8

報酬ゴール地点到達(タスク成功)時r＝1.0/tstep (1tstep：2.4sec)

ε(ε-greedy方策)＝0.3

パラメータ

直接強化学習(Q学習)を適用

観測状態 s’ ∈ S, 行動 a ‘∈ A

1エピソード初期位置からゴール領域に到達するあるいはタイムアウト時間T=180[sec]が経過するまで

強化学習による獲得行動

78エピソード経過後の結果

四肢の行動(横軸)毎にQ値についてソート

遠方右にゴール状態：遠方左にゴール行動：右向きに旋回

状態：遠方中央にゴール行動：直進

状態：近辺右にゴール行動：右向きに旋回

状態：近辺左にゴール行動：右向きに旋回

状態：近辺中央にゴール行動：直進

Q値が収束に向かわないあるいは誤った行動に収束•壁との衝突•壁付近での水流の変化

が影響

強化学習実験結果

学習前後で観測された状態-行動の回数

(初期) エピソード1～5合計エピソード74～78合計

左手右手

右足左足

左手右手

右足左足

角速度大

四肢ともほぼ同じ動作パターン環境状態毎に様々な動作パターンを探索

学習中における指標推移

ゴール到達ステップ数の時間推移(タスクを成功したエピソード)

タスク成功率(直近10試行の移動平均)

学習進行に伴うタスク成功率の低下•状態空間の分割が適切でない可能性•報酬の与え方が適切でない可能性

学習手法再検討の必要性

タスク達成時間平均：PID制御65[s]，Q学習36[s]

まとめ

•水中小型ヒューマノイドロボットシステムの構築を行った

•水中立位姿勢におけるロボットの移動行動を検証した

強化学習の結果，全身動作によりに移動する行動が見られた

PD制御により，ロボットによる2地点間の移動行動を実現した

•水中小型ヒューマノイドロボットのモデル立案を行った

陸上ヒューマノイドロボットモデルとは異なる運動の実現可能性を示した

行動の様子

強化学習79エピソード目

移動軌跡(xy平面)

13ステップ(31[sec])でゴール達成

START

GOAL

nakabayashi m

Documents