nakabayashi m
TRANSCRIPT
水中小型ヒューマノイドロボットの立位姿勢における移動行動学習
Adaptive Underwater Locomotive for Small Humanoid Robot with Standing Posture
複雑系工学講座 調和系工学研究室
修士課程2年 中林 佑太
背景
課題
水中環境がロボットに与える影響•重量・浮量バランスの調整が必要•正確なセンサ計測が困難•流れの変化による外乱が大きく移動制御が困難
多数アクチュエータに対しての制御目標量の多様性
水中ロボットのアプリケーション
漁業における作業代替・補助港湾における点検保守
宇宙空間における作業の検証[08 F.Diot et al,ESA]
ダイバーロボット構想[04金岡他]
要求
多自由度アームによる多様な全身運動の実現
極限環境下における作業代替
ヒューマノイドロボットのような形状
[浦他]
水中ヒューマノイドロボットモデル
FTGBWOvMf 運動方程式
M
WBG
TF
重心周りに働く慣性力によるモーメント
CGCG nfppn )(
Cn
Gp 重心位置系全体の力がかかる位置環境から受ける 周りのモーメントCp
Cp
質量波浪による力抵抗力浮力重力・遠心力・コリオリの力接地面から受ける力全身動作による推進力
GG np ,
Cp fcn
を満たす領域で0B 0Gn を目標とする動作を実現
水中ヒューマノイドロボットの動作
O
ロボットの浮力設定
•ロボット本体:1.3kg•ダイバースーツ:0.6kg•重り1.0kg×4
本体質量m:5.9kg
•スーツ容量V :4.7l 浮量ρV:4.8kg
水中質量:1.1kg
GG np ,Cp F
cn
GG np ,
Cp
F
cn
GG np ,Cp
Fcn
T
を満たす領域で00 TB
0Gn を目標とする動作を実現するf
f
f
適切な質量・重心位置の調整が必要水中ヒューマノイドロボットモデル
対象領域T>0
今回はO
ロボットシステムアーキテクチャ
AD変換ボード
ホストPC
駆動部
内界センサ
制御部
加速度データ
モータ駆動コマンド
制御信号
センサ電圧
防水スーツ manoi-AT01•高さ:34cm•17自由度
外界センサ
制御ボード
3軸加速度センサ
カメラセンサ
画像データ
ヒューマノイドロボット:有索での遠隔操作により動作(ROV)
水中ヒューマノイドロボット
動作環境
高さ600mm
幅1200mm
奥行600mm
カメラセンサ
PC・A/Dボードとの接続ケーブル
安定化電源との接続ケーブル
水槽環境 水中立位姿勢
位置座標・ヨー角検出用マーカー
ロボットが全身運動を実現可能な広さと深さの水槽環境
ロボットの運動
足の動作手の動作
四肢が独立して持つ発振器と目標関節角度により運動パターンを生成
θ=0ω Θ=0
π
π/2
3π/2ω
π/2
π
3π/2
[sec])3.0( T•発振器ダイナミクス: DTit )( )7,,2,1,0( i
発振器発振器
n
itarm
n
i qtmq max)( )16,,3,2,1n( サーボモータ番号•手足の目標関節角: 操作量:)(tmarm
実験
手法:強化学習
目的:立位姿勢における移動行動の実現
手法:フィードバック制御
目的:移動行動の際の全身動作の検証
四肢を使った行動をQ学習により実現
実験2
実験1 目的:固定パターン動作に基づく運動による移動行動検証
2地点間移動タスクによる検証
実験1 PD制御による移動行動実現
T
TtdtdKDtdKPtm
T
TtdtdKDtdKPtm xx
xxxx
)()()()(
)()()()(
X軸 :
Θ軸 :
:
:
:
ΔT
d(t)
m(t)
微分項のパラメータ
比例項のパラメータ
:
:
KD
KP
手足毎の操作量
目標位置に対する偏差
サンプリング時間(1.2s))()()(
)()()(
tmtmtm
tmtmtm
xr
xl
制御目標(左右)
位置偏差と出力値の変化を考慮
ゴール地点
カメラの視野限界
θX x
y
•発振器固有振動数: T
2
1
0,,0,0 左足右足左手右手 DDDD
動作設定
n
itarm
n
i qtmq max)(
)16,,3,2,1n( サーボモータ番号
•発振器位相遅れ:
•手足の目標関節角:
水槽底面xy平面
実験2 強化学習による移動行動実現
•発振器固有振動数(大小):TT
2
1
,4
1
DD ,0
行動状態数(全身)
)4096(2 43 状態
n
it
nn
it
n
i qqqqi maxmax ,
2
1
)16,,3,2,1n( サーボモータ番号
•発振器位相遅れ(大小):
•目標関節角(大小):
動作設定
動作状態数(各腕)
)8(23 状態
車輪型ロボットによるサッカータスクに対してQ学習適用[浅田他]
ゴールとロボット距離d(2段階)
ゴールとロボットの相対角度θ(3段階)
•遠距離領域:d > 250mm•近距離領域:d < 250mm
•中央:-PI/16 < θ < PI/16•左:θ < -PI/16•右:θ > PI/16
強化学習(環境状態)
ゴール地点(ゴール範囲)
カメラの視野限界
θ
d
ロボットがカメラの視野範囲にある場合
ロボットがカメラの視野範囲にない場合
ゴール消失角度θ(3段階)
環境状態を9状態に分割
合計6状態
合計3状態
x
y近距離領域
遠距離領域
水槽底面xy平面
環境状態設定
強化学習(Q学習)
Q(s, a) <- Q(s, a) + α*r + γmax a’ Q(s’, a’) – Q(s, a) ]
状態 s ∈ S, 行動 a ∈ A, 報酬 rQ値更新式
α=0.1,γ=0.8
報酬 ゴール地点到達(タスク成功)時r=1.0/tstep (1tstep:2.4sec)
ε(ε-greedy方策)=0.3
パラメータ
直接強化学習(Q学習)を適用
観測状態 s’ ∈ S, 行動 a ‘∈ A
1エピソード初期位置からゴール領域に到達するあるいはタイムアウト時間T=180[sec]が経過するまで
強化学習による獲得行動
78エピソード経過後の結果
四肢の行動(横軸)毎にQ値についてソート
遠方右にゴール 状態:遠方左にゴール行動:右向きに旋回
状態:遠方中央にゴール行動:直進
状態:近辺右にゴール行動:右向きに旋回
状態:近辺左にゴール行動:右向きに旋回
状態:近辺中央にゴール行動:直進
Q値が収束に向かわないあるいは誤った行動に収束•壁との衝突•壁付近での水流の変化
が影響
強化学習実験結果
学習前後で観測された状態-行動の回数
(初期) エピソード1~5合計 エピソード74~78合計
左手 右手
右足左足
左手 右手
右足左足
角速度大
四肢ともほぼ同じ動作パターン 環境状態毎に様々な動作パターンを探索
学習中における指標推移
ゴール到達ステップ数の時間推移(タスクを成功したエピソード)
タスク成功率(直近10試行の移動平均)
学習進行に伴うタスク成功率の低下•状態空間の分割が適切でない可能性•報酬の与え方が適切でない可能性
学習手法再検討の必要性
タスク達成時間平均:PID制御65[s],Q学習36[s]
まとめ
•水中小型ヒューマノイドロボットシステムの構築を行った
•水中立位姿勢におけるロボットの移動行動を検証した
強化学習の結果,全身動作によりに移動する行動が見られた
PD制御により,ロボットによる2地点間の移動行動を実現した
•水中小型ヒューマノイドロボットのモデル立案を行った
陸上ヒューマノイドロボットモデルとは異なる運動の実現可能性を示した