スポーツ映像表現技術issn 0914-7535 printed in japan スポーツ映像表現技術...

62
スポーツ映像表現技術 巻頭言 スポーツ情報処理と映像表現への期待 2 早稲田大学基幹理工学部 教授 渡辺 裕 解 説 スポーツ映像表現技術の研究開発動向 4 オブジェクト追跡技術の進展に伴うスポーツ番組制作の高度化 16 報 告 多視点ロボットカメラシステム 26 フェンシングの剣先表示システム(ソードトレーサー) 37 3次元飛翔軌道方程式に基づくゴルフ軌跡表示システムの開発 43 研究所の動き スポーツニュースをより多くの人に 日本語からの手話CG制作技術 50 地上波でもスーパーハイビジョン放送を 地上放送高度化技術 51 論文紹介 52 発明と考案 53 研究会・年次大会等発表一覧 54 特集号 平成31年1月15日発行(隔月15日発行) 1月号 No.173 ISSN 0914-7535 1 日本放送協会 放送技術研究所 2019. Jan. No. 173 2019.1 No.173 NHK 技研 R&D

Upload: others

Post on 28-Jan-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • ISSN 0914-7535Printed in Japan

    スポーツ映像表現技術 巻頭言

    スポーツ情報処理と映像表現への期待 2早稲田大学基幹理工学部教授

    渡辺 裕

    解 説

    スポーツ映像表現技術の研究開発動向 4オブジェクト追跡技術の進展に伴うスポーツ番組制作の高度化 16

    報 告

    多視点ロボットカメラシステム 26フェンシングの剣先表示システム(ソードトレーサー) 373次元飛翔軌道方程式に基づくゴルフ軌跡表示システムの開発 43

    研究所の動き

    スポーツニュースをより多くの人に 日本語からの手話CG制作技術 50地上波でもスーパーハイビジョン放送を 地上放送高度化技術 51

    論文紹介 52発明と考案 53研究会・年次大会等発表一覧 54

    特集号

    平成31年1月15日発行(隔月15日発行)1月号 No.173 ISSN 0914-7535

    1日本放送協会 放送技術研究所

    2019. Jan.

    No.173

    2019年1月通巻第173号 平成31年1月15日発行 編集・発行=日本放送協会

    放送技術研究所

    2019.1No.173

    NHK技研R&D

  • 巻 頭 言

    スポーツは,人々の社会的地位や年齢に関係なく,規則に従って勝敗を競ったり楽しみを求めたりする身体運動である。マスメディアの発展とともに,スポーツに対する理解,運動能力および表現を向上させるために,非常に多くの資源が投入されてきている。以前は,運動能力の評価のような領域では,コーチやスポーツ科学者による貢献が大きかった。しかし最近では,放送などのメディアにおけるアプリケーションに多くのリソースが与えられている。これはスポーツ映像が重要な娯楽コンテンツとなり,巨大産業となっているためである。

    スポーツ情報処理は,コーチングやトレーニングなどのスポーツ科学と,スポーツ競技を映像コンテンツとするメディア配信にまたがる技術分野である。スポーツ情報処理と映像表現技術は一見独立した分野のように思えるが,スポーツ映像の解析技術とコンピュータービジョン*1を駆使した映像表現技術は,かなり密接した関係にある。

    近年,視聴者にさまざまな種類の運動能力の統計値を提供するような,実時間のスポーツ観戦の形態が増えている。また,スポーツ映像を分かりやすく見せる技術としてコンピューターグラフィクスを用いた特殊効果が多用されている。例えば,サッカーではリプレイ時にオフサイドラインが重ねて表示される。野球では打球の軌跡が重畳される。陸上競技や水泳においては選手ごとに国旗がレーンに重畳されている。これらは,スポーツ選手の位置検出,動作解析,イベント認識(得点などの事象の認識),レーン検出などが実行されて初めて適用できる表現である。このようなコンピューターグラフィクスを用いた特殊効果のオーバーレイ(画像の重畳)は,競技ごとに違ったものが要求される。また複数のカメラによって撮影された映像から,任意視点映像を再構成する表現形式は,サッカーを中心に活発に開発が進んでいる。

    一方で,情報処理技術を駆使したスポーツ戦略の構築やトレーニングに通じる運動解析は,機械学習の技術の進展により大きく変わろうとしている。身体挙動解析のようなスポーツ工学の分野は,日本機械学会のスポーツ工学・ヒューマンダイナミクス部門で取り扱われてきた。従来,マーカーによる身体計測やロボティクスへの応用が主流であった。しかし,米カーネギーメロン大(CMU:Carnegie Mellon University)によって開発された機械学習型の人物姿勢推定であるOpenPoseにより,非接触で複数の姿勢推定がリアルタイムに行えるようになった。OpenPoseは映像のみから人物姿勢推定が可能であり,比較的遠距離であっても動作するという利点がある。この技術と一般物体認識技術を組み合わせることで,スポーツ選手の動作解析が飛躍的に高精度化した。オブジェクト(物体)の切り出しという観点からは,そのまま特殊効果のための映像表現に利用可能である。

    スポーツにおけるゲーム戦略については,コーチなどの専門家によるフォーメーションボード(戦術を指示するためのボード)を用いたアプローチが主流であった。しかし,ビッグデータを前提とする機械学習の導入により,確率統計を前提としたゲーム戦略が立てられている。これには機械学習によるオブジェクト認識,選手の位置やフォーメーションなどの自動解析が前提となっている。

    スポーツ情報処理と 映像表現への期待渡辺 裕早稲田大学基幹理工学部 教授

    2 NHK技研 R&D ■ No.173 2019.1

  • CVPR(Conference on Computer Vision and Pattern Recognition)はIEEEにおけるコンピュータービジョンとパターン認識の国際会議である。CVPRと同時に多くのWorkshopが開催される。その中に

    「CVsports: International Workshop on Computer Vision in Sports」があり,2018年で4回目の開催となる。このCVsportsにおいて,コンピュータービジョンのアルゴリズムが,スポーツのさまざまな面に対して非常に大きな可能性を秘めていることが指摘されている。例えば,放送においてクローズド・キャプション*2として提供できる自動アノテーション*3や,スポーツ障害に対する正しい理解,およびサービス強化された視聴環境などが挙げられている。従来,スポーツにおけるコンピュータービジョンの利用は,各種のスポーツ領域において独自に実行されてきた。今後は,異なった領域におけるスポーツ選手と科学者が,コンピュータービジョンの利用に対する基本的なアイデアや手法を共有することが重要であると述べられている。トピックとして挙げられている項目には,(1)スポーツにおける選手とカメラの位置と動きの推定,(2)スポーツにおける人々とオブジェクトの追跡,(3)スポーツにおけるアクティビティー認識(活動状況の認識),(4)スポーツにおけるイベント検出,(5)スポーツ観客の動勢把握,(6)スポーツ映像に対するアノテーションとインデクス付加,(7)スポーツ映像に対するグラフィクス効果の重畳,(8)スポーツ選手のけがの分析,(9)スポーツ選手の能力の査定,などがある。

    2020年の東京オリンピック,パラリンピックに採用された競技数は,それぞれ33,22競技である。それぞれの競技において,ゲーム戦略,運動解析対象,動作解析手法,映像表現が異なる。そのため,少なくとも競技の数だけ,それぞれに適した映像表現が必要となる。例えば,OpenPoseは人物が直立している状態で撮影された学習画像が多い。したがって,体操やスノーボードなどで,回転技により足と頭の位置が逆転するような場合に,誤検出が増加する。学習データの拡張によりある程度の角度変化は吸収できるが,本質的な解決策とはなっていない。回転技系のスポーツに適した人物姿勢推定技術の開発は今後の課題である。また,陸上競技では100m走とマラソンでは必要とされる映像表現が全く異なる。それだけではなく,マラソンなどでは競技が広範囲にわたるため,映像表現の違いは,配信のための中継システムにまで影響する。さらに,スポーツ映像の伝送・記録・符号化・データベース技術も併せて重要である。

    競技スポーツで培われた映像関連技術は,オリンピック後にも健康維持管理のための生涯スポーツに転用できる。これらのさまざまな技術の実現に向けて,NHK放送技術研究所がその先端を担っていただきたいと願っている。

    *1 人の物体認識などの視覚システムをコンピューターにより実現する技術。*2 表示と非表示を切り替えることができる字幕。*3 コンテンツにメタデータ(コンテンツに関連するデータ)を自動で付与する処理。

    1980年 北海道大学工学部電子工学科卒業1982年 北海道大学大学院工学研究科修士課程修了1985年  北海道大学大学院工学研究科博士課程修了

    同年,日本電信電話株式会社(NTT)に入社2000年 早稲田大学大学院国際情報通信研究科教授2013年 早稲田大学基幹理工学部情報通信学科教授

    現在は,機械学習,画像認識,映像処理に興味を持つ。NTTヒューマンインタフェース研究所,サイバースペース研究所において,画像符号化,映像通信システムの研究開発,JPEG・MPEGの標準化作業に従事。1990~1991年,Bell Communications Research客員研究員。1999~2006年,ISO/IEC JTC1/SC29議長。IEEE,電子情報通信学会,情報処理学会,映像情報メディア学会,画像電子学会,日本音響学会会員。工学博士。

    3NHK技研 R&D ■ No.173 2019.1

  • 解説01

    スポーツ映像表現技術の 研究開発動向三ッ峰秀樹

    当所では,スポーツ中継において通常の撮影映像だけでは把握しにくい状況を,分かりやすく効果的に伝えられる映像表現技術の研究開発を進めている。近年,スポーツを対象とした情報処理技術は市場の拡大とともに急速に発展してきており,スポーツ中継向けの映像表現技術に関しても同様の状況と言える。本稿では,スポーツ中継における映像表現技術の課題を述べるとともに,近年のスポーツ映像表現技術の研究開発動向について解説する。

    1.はじめにオリンピックなどの大型スポーツイベントの開催や,個人・グループのスポーツ技能向上,

    スター選手などへの興味,健康志向の高まりなどを受けて,世の中のスポーツに対する関心は増すばかりである。テレビ放送においては,通常の撮影映像だけでは伝わりにくい競技の状況を分かりやすく伝える工夫として,映像解析技術やセンサー情報などを利用したさまざまな映像表現技術が生み出され,改善されてきた。例えば,野球競技における映像表現では,1970年代後半から,スピードガンを用いた投球速度表示が行われているが,その後,ボール軌跡の表示が行われるなどの進化を遂げており,さらに近年では,ボールの回転数などの表示も可能になっている。

    一方,スポーツ中継向けの映像表現技術を開発・実用化するには,公式大会におけるルールや競技会場の環境などに起因するさまざまな制約があり,映像表現技術はそれらの制約を満たす必要がある。そのため,設計や開発工程においては,制約を満たせるセンサーの開発や,内部処理にかけられる所要時間と精度とのバランス調整,競技会場での入念な検証実験などが求められる。

    本稿では,スポーツ映像表現技術全般に関する現状について述べ,スポーツ中継における映像表現技術の制約や課題を指摘するとともに,近年のスポーツ映像表現技術の研究開発動向について解説する。

    2.スポーツ情報処理と映像表現スポーツへの関心が高まる中で,スポーツ競技の状況をより詳しく知りたいというニーズ

    も一層の高まりと多様化を見せている。スポーツ競技の状況を把握する手段としては,試技を撮影した映像の提示や専門家による解説などのほかに,技術的に状況を計測・分析し,それを提示することが挙げられる。この計測・分析・提示に必要となるスポーツ情報処理関連技術は,1表に示すように,さまざまな技術から構成され,その用途は多岐にわたる。これらの技術は,産業・経済の面で期待される波及効果の大きさから,各所で活

    4 NHK技研 R&D ■ No.173 2019.1

  • 解 説 01

    発に研究開発が進められ,順次実用化が図られている。スポーツ情報処理における代表的な映像表現技術を2表に示す。これらの技術は,競

    技や目的によって制約や要求される精度などが異なることから,実現するためのアプローチはさまざまである。本章では,現時点でのスポーツ情報処理技術において,映像表現と関連性の高い事項をアプローチごとに整理して解説する。

    2.1 多視点映像を利用した映像表現技術スポーツの試技において,選手や競技フィールドをさまざまな視点や向きで観察したい

    というニーズがある。これに応える技術として,多視点から同じタイミングで試技を撮影し,その映像を用いて,撮影後に仮想的にカメラの視点や向きを変更した映像を生成・提示する技術が,国内外の機関で研究・開発されている1)~5)。これらの手法は,被写体を取り囲むように配置した複数のカメラ映像(多視点映像)を用いる点で共通している。しかし,撮影後の処理に関しては,1図(a)に示すように,多視点カメラで撮影した被写体を3次元モデル*1に変換し,自由な視点変更に対応する手法と,1図(b)に示すように,多視点カメラで撮影した映像を滑らかに切り替える手法(「タイムスライス撮影による手法」と呼ぶ)に大別される。

    (1)3次元モデルによる手法3次元モデルによる手法1)は,多視点映像の解析により被写体の3次元モデルを取得し,

    *13次元形状とテクスチャー(表面の模様など)から成るモデル。

    2表 スポーツ情報処理における代表的な映像表現技術

    要素技術 主な映像表現

    多視点映像を利用した映像表現技術 ・自由視点映像 ・タイムスライス映像

    被写体位置計測技術 (画像解析,センサーなどの利用)

    ・ボール位置の可視化 ・選手の位置・姿勢の可視化

    不可視情報の可視化 ・ボールの軌跡や回転数,選手の動きの可視化 ・フォーメーションやイベントの可視化

    高速度撮影技術 ・試技のスロー再生

    1表 スポーツ情報処理関連技術と波及効果

    スポーツ情報処理

    関連技術

    映像解析技術

    センサー技術

    スポーツ解析技術

    高速度撮影技術

    映像配信技術

    波及する分野

    放送利用

    体育・コーチング

    審判支援

    エンターテインメント

    ヘルスケア

    5NHK技研 R&D ■ No.173 2019.1

  • 任意の視点から見込まれる映像をCG(Computer Graphics)描画技術により再構成する手法である。3次元モデルを獲得する必要があるため,撮影後の処理にかかる計算コストは大きいが,視点変更の自由度が大きいことに加え,後述のタイムスライス撮影による手法と比較して,少ないカメラ台数で実現できるという特長がある。

    3次元モデルによる手法において必要となる形状取得については,映像解析による手法のほかに,センサーから被写体の各部位までの距離を取得するレンジセンサーによる手法も提案されている。その1つで,近年多く用いられるようになってきたToF(Time of Flight)手法6)~8)は,センサーカメラ*2側から発した光が被写体表面で反射し,再びセンサーカメラに戻ってくるまでの時間を基に距離画像を取得する手法であり,光源に赤外線を利用することで,撮影映像に影響を与えずに,短時間で計測できるという利点がある。しかし,原理上,屋外の広大なフィールドで行われる競技(例えばサッカーなど)に対しては,細かい起伏が計測できなくなることに加え,太陽光に含まれる赤外光の外乱を受けるなど,現状では実用化に向けた課題を有している。

    (2)タイムスライス撮影による手法タイムスライス撮影(バレットタイム,あるいはマシンガン撮影などとも呼ばれる)による

    手法は2)~4),被写体を取り囲むように連続的に配置したカメラの映像を順次切り替えて,あたかも配置したカメラの並びに沿ってカメラを移動させて撮影したかのような映像を生成する手法である。時間を止めてカメラが回り込むといった映像表現が可能で,試技の重要なシーンをさまざまな方向から観察することが可能となる。あらかじめカメラの移動経路

    (カメラパス)を決定し,それに合わせてカメラを設置しておく必要があるが,希望するカメラパスおよびカメラ移動時間を基に,滑らかな映像切り替えに求められるカメラの設置位置や間隔(台数),レンズ等の条件を各カメラに設定できれば,高品質な再生映像を生成できる。

    *2画像解析を目的に設けたカメラ。

    1図 多視点映像を利用した映像表現技術

    被写体

    被写体密に配置したカメラ群

    順次切り替えによる自由視点映像

    複数台のカメラ

    撮影映像

    撮影映像

    映像解析

    仮想カメラの設定

    CGレンダリング

    自由視点映像

    被写体形状 テクスチャー

    3次元モデル

    (a)3次元モデルによる手法 (b)タイムスライス撮影による手法

    6 NHK技研 R&D ■ No.173 2019.1

  • 解 説 01しかし,現実の撮影条件(カメラの位置や向きなど)を理想的な状態に設定することは,

    機械精度の限界などから困難である。そのため,理想的な条件と現実の撮影条件との誤差を許容した上で,画像処理により,撮影条件の誤差の仮想的な補正や,カメラ間の映像内挿処理による補間などが行われる。仮想的な補正は,例えば,注目する被写体をいずれのカメラでも中心に位置するように映像処理するもので,一般的には,事前の校正処理によりカメラの姿勢やレンズなどの状態(カメラパラメーター)を求めておき,得られた情報を利用して撮影映像に射影変換処理*3を施すことで,あたかも理想的なカメラとレンズで撮影したかのような映像に補正する。ただし,この射影変換処理により撮影映像の一部が切り取られるため,画質が低下するという課題がある。

    上記(1)の3次元モデルによる手法と(2)のタイムスライス撮影による手法を比較す ると,視点の自由度の点で前者が有利と言える。ただし現状では,被写体や撮影の条件によっては,欠落などのない整った3次元モデルを生成することができず,再構成した 自由視点映像が破綻する場合がある。 今後, この課題が解決されていくことで,AR

    (Augmented Reality)やVR(Virtual Reality),3次元テレビなどのコンテンツ制作における活用が期待できる手法と言える。一方で後者は,生成映像のカメラパスに制限があるものの,品質の確保が比較的容易であり,また,短時間で映像を生成できることから,試技を即座に確認する場合などの用途に有利な手法と言える。

    さらに,(1)(2)のいずれの手法も,最終映像の画質は,撮影する際の画像解像度に依存する。例えば,サッカー競技などのように広いフィールドで多数の選手が入り乱れる状況において,特定の走り回る選手に注目するといった場合には,画像品質の確保に工夫が必要となる。この課題に対して,当所では,多視点映像を用いた映像表現として「ぐるっとビジョン」の開発4)を進めている。この手法は,(2)のタイムスライス撮影による手法を基本とし,カメラマンのベースカメラ(複数のカメラのうち,代表となるカメラ)への操作に対して協調動作する多視点ロボットカメラを用いている。この仕組みにより,通常のカメラマンの操作とほぼ同等の操作で全カメラを操作でき,なおかつ画質を損なわない適切な画角とカメラワークで,注目する被写体を撮影可能としている。詳細については,本特集号の報告1「多視点ロボットカメラシステム」を参照していただきたい。

    2.2 被写体位置計測技術スポーツ競技において,ボールや選手の位置を特定することは,選手の状況把握やフォー

    メーションの分析などにおいて極めて重要な情報となる。競技団体によっては,試合で計測を行い,取得したデータを競技者や視聴者などにフィードバックして,技能向上や競技への理解・魅力を高めることに利用している。この被写体位置計測技術は,画像解析によるパッシブな手法と,ドップラーレーダーやRFID(Radio Frequency Identifier)*4などを用いて計測するアクティブな手法とに大別できる。

    (1)画像解析による手法ボールゲームにおけるボールや選手の位置をカメラで撮影し,それぞれの被写体の画

    像特徴をよりどころに映像から位置を特定する手法では,一般的に撮影には固定のセンサーカメラが用いられており,センサーカメラの台数やその配置などは競技や目的によりさまざまである。サッカーやバスケットボールなどの競技を対象にボールや選手の位置を計測する従来手法としては, 例えば,ChyronHego社の「TRACAB」9)やSTATS社の

    *33次元上のある平面を別の平面に投影する変換処理。

    *4ID情報などを無線周波数(RF)で送信するタグ。

    7NHK技研 R&D ■ No.173 2019.1

  • 「SportVU」10)などが挙げられる。撮影システムとしては,「TRACAB」では,1つの筐体に3台のカメラを収めたカメラシステムを2式用いてフィールド全体を撮影し,計測を行っている。「SportVU」では,サッカー競技では3台,バスケットボールでは6台のカメラを用いて計測を行っている。これらの手法11)~13)では,背景差分11) *5をベースとした手法や色情報を利用した手法12)を用いて,撮影映像からボールや選手の領域を抽出し,画像解析によりボールや選手の識別・追跡を行っている。

    画像解析による手法では,撮影映像上の被写体の状態により,追跡結果に誤りを生じる。そのため,現状では,精度を求められる用途においては,自動処理後に手動で修正を行っている。特に,誤りを生じる要因は,選手同士が接近・交差することにより生じるオクルージョン(隠れ)領域の存在である。この対策としては,異なる視点の映像を利用する手法13)や後述のRFIDの利用が有効である。

    画像解析を利用した被写体位置計測技術は,近年,高精度化が進んできており,サッカー(イングランド・プレミアリーグ)ではゴールライン判定に採用されている。このゴール判定には,Sony社による「Hawk-Eye」14)というシステムが用いられている。Hawk-Eyeは,複数の高速度カメラで撮影した映像を解析することで,選手の位置やボールの軌道を瞬時に算出可能で,その位置精度はmmオーダーとされている。イングランド・プレミアリーグでは,ボールがゴールと認定された際に,審判らの腕輪に情報が伝達される仕組みとなっている。このようなシステムはサッカーだけではなくテニスの公式試合でも利用されており,今後さまざまな競技種目に導入されていくものと予想される。

    (2)RFIDを利用した手法選手のユニフォームやボールにRFID(RFタグ)を埋め込んでおき,それを多地点のアン

    テナで受信することで,三角測量の原理により位置を特定する手法が,ChyronHego社(「ZXY ARENA」15)),Zebra Technologies社16)により実用化されている。さらに,加速度計,ジャイロスコープ*6,心拍計などのセンサーを付加すれば,それらのセンサーで取得した情報をRFタグ経由で送信可能になっており,選手の姿勢やボールの回転量,心拍なども取得できる。

    本手法は,前述の画像解析による手法と比較して頑健であるが,選手やボール側にRFタグを装着する必要があることから,競技者のパフォーマンスへの影響や競技団体のルール上の制約などによって,公式試合などでは利用が制限される場合がある。

    その一方で,トレーニングを主目的として,野球のボール内に加速度センサーや角速度センサー,地磁気センサーを埋め込み,投球の速度や回転量を計測する手法が実用化されている17)18)。投球に限定された利用で,公式試合では利用できないが,技能向上への活用が期待される。

    (3)ドップラーレーダーによる手法ボールゲームにおいて,飛

    翔しょう

    するボールの各種状態のうち,最も基本的なパラメーターが位置や速度である。その計測に用いられる古典的な手法が,レーダー反射波の周波数の変化を利用するドップラーレーダーによる手法19)である。この手法は,一定周波数のレーダー波(10.525GHz帯,24.15GHz帯)をボールなどの飛翔体に発射すると,飛翔体で反射されて戻ってくるレーダー波の周波数が飛翔体の速度によって変化する性質を利用するものである。反射波の位相の状態によってボールまでの距離が計測できる20)ことを利用し,ボールの3次元位置を特定する。このような被写体位置計測手法はTRACKMAN社21)な

    *5事前に撮影した画像との差異を利用して動物体領域を抽出する手法。

    *6物体の回転角度などを計測する装置。

    8 NHK技研 R&D ■ No.173 2019.1

  • 解 説 01どにより実用化されており,ゴルフ競技の軌跡表示などに利用されている。

    ドップラーレーダーを応用した被写体位置計測手法は,長距離計測や頑健さが特長と言えるが,装置が高価であり,また,原理上,電波干渉による影響を受けるため,複数台の装置の同時使用に制限が生じる場合がある。さらに,計測情報に含まれるノイズへの対策として平滑化処理などを行うため,位置情報出力に遅延がある。

    例えば,同時に複数のホールで競技が進行するゴルフでは,複数台を利用したいというニーズがあるため,より簡便で安価な手法が求められている。

    2.3 姿勢情報の取得選手の姿勢情報は,各種競技におけるフォームの確認や体操競技の評価などにおいて

    重要な情報である。体育・コーチングにおいては,複数の高速カメラや,CG制作等で用いられるモーションキャプチャー技術などを利用して取得した選手の姿勢情報が,技能向上などに活用されている22)。

    しかし,例えば,姿勢情報の取得に光学式モーションキャプチャー技術を用いる場合は,選手の各関節にマーカーを装着し,複数の赤外カメラで取り囲んだ領域内で計測する必要があるため,選手のパフォーマンスに制限を与える場合がある。さらに,広範なスペースが必要な競技では,設備が高コストになるといった課題がある。

    一方,近年の深層学習*7などの発達により,撮影映像から被写体の姿勢を頑健かつ準リアルタイムで推定する手法が提案されており23),スポーツ情報処理への応用が行われている24)。

    2.4 不可視情報の可視化飛翔するボールの軌跡やサッカー競技におけるフォーメーションなど,直接撮影映像に

    映らない情報(不可視情報)の可視化は,被写体の動きを理解する上で重要な情報と言える。飛翔するボールの軌跡の数値化・可視化については,2.2節で述べたとおりである。

    また,例えば,体操において選手がどのように身体をさばいたのか,どのように重心を移動させたかといった情報を分かりやすく解説するための支援を目的として,撮影映像から時間経過する選手領域のみを取り出し,連続写真風に1枚の画像に重畳する可視化手法

    「マルチモーション」25)が開発された。マルチモーションと同様な映像表現手法の例としては,ジースポート社の「DARTFISH」26)などが挙げられる。これらの手法により,選手の一連の動きを分かりやすく伝えることが可能となったが,処理時間や,前後関係が分かりにくいといった課題があった。近年では,遠赤外線カメラと画像解析を併用した手法27)

    などにより,高速化・頑健化が進められている。その他の可視化手法として,例えばサッカー競技などでは,オフサイドライン28)が現在

    どこにあるのか,ピッチ上でパスできる可能性が高い領域はどの場所であるのか29)といった情報を可視化する手法が開発されている。これらのオフサイドラインやパス可能領域の情報は,2.2節で述べた手法により求めた選手の位置情報を利用して算出している。算出後,例えばオフサイドラインについては,撮影映像のカメラ姿勢や画角と整合を取った上でCG描画により可視化し,撮影映像に合成している。

    3.スポーツ中継における課題本章では,2章で紹介したような映像表現を放送に適用する場合,特にスポーツ中継

    で利用する場合に求められる要件について述べる。

    *7機械学習の一種で,多層構造の脳神経回路をモデルにしている。

    9NHK技研 R&D ■ No.173 2019.1

  • 3.1 公式試合における制約スポーツに関連したテレビ番組には,教育・科学的な視点で競技を取り扱う番組もある。

    これらは,必ずしも公式試合を対象とする必要はないため,映像表現における制約は比較的少ないと言える。

    一方,スポーツ中継で主に対象となるのは,プロリーグや選手権大会などの公式試合である。公式試合では,競技団体で規定されたルールや,競技会場の環境として求められる要項があり,競技を中継する場合は,それらの制約を順守する必要がある。例えば,競技に用いる用具の素材・大きさ・重量を制限内に収めることや,選手のパフォーマンス,審判の判定を妨害しないための配慮を行うことなどである。これらの制約は,結果的に,カメラや計測装置の設置位置,選手やボールなどへのRFIDや特殊素材などの装着を制限することとなる。したがって,それらの制約を満たす手法の開発や,妨害を与えないための工夫が必要となる。

    3.2 競技の進行に関する制約競技の進行に関しても制約がある。競技をどのようなスケジュールや段取りで進行させ

    るかは,競技団体側で判断・決定するものである。したがって,試技を振り返っての解説シーンにおいて,何らかの映像表現を施した映像を解説支援として放送に流すためには,試技直後速やかに映像解析処理等を完了し,次の試技が始まる前までに,その映像を流し終えることが必要となる場合もある。

    さらに,近年では試技の振り返りだけではなく,試技中にリアルタイムで,撮影映像にCGなどの映像を合成して情報提示を行うケースも増えている。例えば,競泳において先頭選手の位置にラインを合成する,あるいはゴルフ競技においてボール軌跡を合成するといったものである。このような映像表現では,処理の高速化・高精度化に対する要求条件は,一層厳しいものとなる。

    また,競技会場ごとに撮影環境は異なるため,手法には頑健さと高い運用性(自動セットアップ機能や使いやすいユーザーインターフェースなど)も求められる。

    3.3 高精度化と処理時間のトレードオフスポーツ中継で利用する映像表現技術において,前節で述べたような要件がすべて満

    たされれば理想的と言える。しかし,高い精度や頑健さを確保するためには,一般的に処理アルゴリズムが複雑化してしまい,処理に時間を要するものとなる。逆にアルゴリズムを簡略化した場合は,精度が低下し,例えば手動でのデータ修正や,パラメーターを変更して再度解析を行うといった対応が必要となる。つまり,高精度化と処理時間はトレードオフの関係にあり,競技の進行や制作ワークフロー,番組演出などを考慮しながら,このトレードオフが最適なバランスとなるようにシステムを設計することが,スポーツ中継での映像表現技術には求められる。

    4.スポーツ映像表現技術の最新動向3章で述べたとおり,スポーツ中継における映像表現技術は,主に試技の合間の限ら

    れた時間で利用されることから,短時間でも理解しやすい直感的な映像表現30)が好都合と言える。本章では,処理時間やスポーツ中継の要件を加味した映像表現技術の最新動向について述べる。

    10 NHK技研 R&D ■ No.173 2019.1

  • 解 説 01

    4.1 高速度カメラを利用したスロー映像リプレイ直感的に理解しやすい映像表現の代表として,高速度カメラを利用した試技のスロー

    映像リプレイが挙げられる。スロー映像によるリプレイは,古くから用いられてきた映像表現ではあるが,被写体の見え方はそのままで,時間の進み方だけが変更されるため,映像表現自体の補足説明がほぼ必要なく,現在でもスポーツ中継で多用されている。2018年12月から本放送が始まった4K・8Kスーパーハイビジョン放送においても,スポーツ中継ではスロー映像が利用されているが,当所では,そのための高速度カメラとして240フレーム/秒で8K映像の撮影が可能なカメラを開発した31)。このカメラは,映像の精細さもあり,放送利用に限らず,スポーツ情報処理技術全般での活用が期待されている32)。

    4.2 多視点映像を用いた映像表現技術の動向多視点映像を用いた映像表現技術の1つであるタイムスライス撮影による手法において

    は,2.1節で指摘した画質の課題に対し,多視点カメラの高画質化33)などによる解決が図られている。一方,当所では,2.2節で述べた被写体位置計測技術とタイムスライス撮影を組み合わせ,ボールなどの飛翔体の3次元軌跡の表示と合わせてタイムスライス映像を提示する新たな映像表現手法「Sports 4D Motion」33)を開発した。Sports 4D Motionによる映像表現の例を2図に示す。

    また,多視点映像を用いた映像表現技術に関しては,一定のカメラ台数が必要となるため,設置作業に多大な労力がかかるだけでなく,中継会場によっては設置スペースの確保が困難な場合がある。この課題に対しては,カメラ台数を抑制しながら,被写体の3次元空間での位置関係を,選手の一連の動きと合わせて分かりやすく伝える手法「2.5次元マルチモーション」34)を開発した(3図)。この手法は,視点変更範囲に制限が生じるものの,撮影にステレオカメラのみを用いるため,設営が容易で,広い設置スペースを必要としない。処理としては,ステレオカメラで撮影した競技映像から,まず,従来のマルチモーション技術により選手領域を時系列で抽出する。次に,各選手領域の重心位置から三角測量の原理により3次元位置を求め,仮想の3次元空間に各選手領域画像を書き割りとして配置する。これにより,マルチモーション表現として選手の一連の動きを把握しやすくすると同時に,視点変更により,奥行き方向の位置関係も分かりやすく表現可能となった。2.5次元マルチモーションによる映像表現の例を3図に示す。

    2図 Sports 4D Motion による映像表現の例 (「ぐるっとビジョン※」映像にボールの3次元軌跡を合成)

    ※ 本特集号の報告1を参照。

    タイムスライス映像の時刻

    11NHK技研 R&D ■ No.173 2019.1

  • 4.3 被写体位置計測技術の動向2.2節で述べた画像解析による被写体位置計測技術に関しては,これまで,事前に

    機械学習を行った被写体特徴を用いて特定の被写体を追跡する手法が主流であったが,アルゴリズムの工夫や計算機の能力向上により,逐次型の機械学習による追跡がリアルタイムで可能になっている。これまでスポーツ中継での利用が困難であった見え隠れする被写体の追跡が,この逐次型の機械学習手法を導入することで頑健かつリアルタイムに可能となっている。例えば,カーリング競技でのストーン軌跡の可視化35)を,逐次型の機械学習手法を応用して可能にしている。

    ドップラーレーダーを利用した被写体位置計測技術の応用に関しては,例えば,ゴルフ競技では,得られた弾道情報から軌跡表示が行われている。近年では,弾道情報だけでなく,ボールが回転した際に,回転角速度に応じた送信波に対するボール各部位の相対速度の差異を利用し,回転数の計測36)を可能としている(4図)。さらに,反射波を複数のアンテナで受信することにより,回転軸も計測可能であり,この原理を利用して,TRACKMAN21)などが野球やゴルフなどの競技に利用されている。

    しかしながら,レーダーを利用する手法は,2.2節で指摘した複数設置や,コスト,計測遅延などの課題がある。これらの課題に対して,当所では,ステレオカメラで撮影した映像上のボール位置をニューラルネットワーク*8により特定し,得られた位置情報から,3次元飛翔軌道方程式37)を用いて軌跡を推定する手法を提案した38)。この手法は,装置の複数設置が可能で,安価かつ低遅延であることが特長であり,ボールの打ち出し地点と落下地点の双方で計測することで,推定軌道に対する風やボール回転による誤差を低減している。詳細については,本特集号の報告3「3次元飛翔軌道方程式に基づくゴルフ軌跡表示システムの開発」を参照していただきたい。

    被写体位置計測技術に関しては,位置計測や選手特定の精度向上が進められる一方で,例えば,サッカーの競技映像から抽出した特徴量(選手・ボールの位置や選手間の距離などの情報)を利用し,ファウルやシュート,ゴールキックといったイベント 39)40)や戦術41)

    の推定手法などが提案されている。鈴木らの手法41)では,陣形を考慮した特徴量を用い,LSTM(Long Short-Term Memory:長短期記憶)ネットワーク43) *9を用いることで,3種類の基本戦術を精度よく認識可能としている。

    *8脳の信号処理を計算機上でネットワークにより再現したモデル。

    *9時系列データなどのパターンを認識する深層学習モデルである再帰型ニューラルネットワーク42)を,長期時系列データに対応できるように拡張したネットワーク。

    3図 2.5次元マルチモーションによる映像表現の例

    12 NHK技研 R&D ■ No.173 2019.1

  • 解 説 01

    5.将来展望とまとめ本稿では,スポーツに関する映像表現技術全般に関する現状を示すとともに,スポー

    ツ中継における課題,スポーツ映像表現技術の最新動向について解説した。多視点映像を利用した映像表現技術は,スポーツ分野だけではなく,現在ホットな

    AR,VRの分野や,将来の3次元テレビのコンテンツ制作においても重要な基盤技術になっていくものと考えられ,高画質化,高速化などの課題を中心に,引き続き国内外の研究機関で活発に研究が進められると予想される。

    被写体位置計測技術については,4章で述べたように高精度化・頑健化が進む中で,イベントや戦術の推定など,より高次のメタデータに変換する技術が研究開発されており,映像表現だけではなく,状況に基づく映像検索やロボットカメラの自動制御などへの活用が期待できる。

    近年では,生活活動量計などのIoT(Internet of Things)技術も含めたスポーツ情報処理技術が一般ユーザーへ浸透していく中で,競技団体側でもそれらの技術の導入が積極的に検討されている。このような状況変化は,スポーツ映像表現技術の研究開発の方向性に大きく影響を与える可能性もあり,競技団体の動向把握も重要と言える。

    また,スポーツ競技には,マイナーな競技を含め,膨大な種目が存在する。一方で,視聴者ニーズの多様化も拡大を続けている。これらに応えていくには,例えば,競技の状況に基づき番組を自動制作する技術 44)やIP(Internet Protocol)制作技術 45)など,効率的な番組制作手法の研究開発も有効と考える。本稿で述べた個別の技術だけではなく,このようなアプリケーションや番組制作技術などの研究開発も重要となっていくと予想される。

    当所におけるスポーツ映像表現技術の研究開発においては,ハイビジョン放送の番組制作だけではなく,ハイブリッドキャストや4K・8Kスーパーハイビジョン,さらにはセカンドスクリーンなどへの活用も視野に,今後も,より分かりやすく,詳しく,魅力的に情報を伝えられる手段となるように,更なる改善を図っていく。

    4図 ドップラーレーダーを利用したボール回転数計測の原理

    平均より低めの周波数

    ボール各部位からの反射波

    送信波

    ボール速度に応じた平均周波数

    平均より高めの周波数

    飛翔方向回転

    13NHK技研 R&D ■ No.173 2019.1

  • 参 考 文 献1) 北原,大田:“大規模空間を対象とした自由視点映像生成のための3次元形状表現手法,” 日本

    バーチャルリアリティ学会論文誌,Vol.7,No.2,pp.177-184 (2002)

    2) http://www.4dreplay.com

    3) https://www.intel.com/content/www/us/en/sports/technology/true-view.html

    4) K. Ikeya and Y. Iwadate:“Multi-Viewpoint Robotic Cameras and Their Applications,” ITE Transactions on Media Technology and Applications,Vol.4,No.4,pp.349-362 (2016)

    5) 三功, 内藤:“選手領域の抽出と追跡によるサ ッ カ ー の自由視点映像生成,” 映情学誌,Vol.68,No.3,pp.J125-J134 (2014)

    6) M. Kawakita, K. Iizuka, H. Nakamura, I. Mizuno, T. Kurita, T. Aida, Y. Yamanouchi, H. Mitsumine, T. Fukaya, H. Kikuchi and F. Sato:“High-definition Real-time Depth-mapping TV Camera: HDTV Axi-Vision Camera,” Optics Express,Vol.12,Issue 12,pp.2781-2794 (2004)

    7) S. Kawahito, A. H. Izhal, T. Ushinaga, T. Sawada, M. Homma and Y. Maeda:“A CMOS Time-of-Flight Range Image Sensor with Gates-on-Field-Oxide Structure,” IEEE SENSOR Journal,Vol.7,No.12,pp.1578-1586 (2007)

    8) O. Wasenmüller and D. Stricker:“Comparison of Kinect V1 and V2 Depth Images in Terms of Accuracy and Precision,” Computer Vision – ACCV 2016 Workshops,ACCV 2016,Lecture Notes in Computer Science,Vol.10117,pp.34-45 (2016)

    9) https://chyronhego.com/wp-content/uploads/2018/02/TRACAB-PI-sheet.pdf

    10) https://www.stats.com/publications/stats-sportvu-independently-validated/

    11) H. Sankoh, A . Ishikawa, S. Naito and S. Sakazawa:“Robust Background Subtraction Method Based on 3D Model Projections with Likelihood,” 2010 IEEE International Workshop on Multimedia Signal Processing,pp.171-176 (2010)

    12) 片岡,青木:“単眼カメラを用いたサッカー戦術解析のための複数選手とボールの追跡,” 画電学誌,Vol.41,No.2,pp.152-159 (2012)

    13) R. Hamid, R. K. Kumar, M. Grundmann, K. Kim, I. Essa and J. Hodgins:“Player Localization Using Multiple Static Cameras for Sports Visualization,” 23rd IEEE Conference on Computer Vision and Pattern Recognition (CVPR2010),pp.731-738 (2010)

    14) https://www.hawkeyeinnovations.com/

    15) https://chyronhego.com/wp-content/uploads/2018/06/ZXY-Arena-PI-sheet.pdf

    16) https://www.zebra.com/jp/ja/solutions/location-solutions/zebra-sport-solution.html

    17) https://technicalpitch.net/

    18) https://www.mizuno.jp/baseball/products/MAQ/

    19) 今村:“スピードガンの原理,” 現代体育・スポーツ大系第7巻,身体運動の科学(浅見俊雄他編),講談社,pp.77-78 (1984)

    20) 青木:“ゴルフ中継におけるショットデータCGシステムの開発,” 映情学誌,Vol.72,No.1,pp.J9-J12 (2018)

    21) https://trackmangolf.com/

    22) 林:“DLT法を用いた競技スポーツの分析,” 映情学誌,Vol.67,No11,pp.932-935 (2013)

    23) Z. Cao, T. Simon, S. -E. Wei and Y. Sheikh:“Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2017,pp.1302-1310 (2017)

    14 NHK技研 R&D ■ No.173 2019.1

  • 解 説 01

    24) 横井, 石川, 渡辺:“野球選手のスイン グ解析による打撃成績予測,” 信学総大,D-12-45 (2018)

    25) 李, 八木, 野口:“体操選手のフォーム・軌跡表示システム ‒マルチモーション‒,” 映情学誌,Vol.51,No.11,pp.1881-1887 (1997)

    26) https://www.dartfish.com/Sports

    27) 加藤,三ッ峰:“遠赤外線カメラと画像処理技術を用いた被写体抽出手法に関する一検討,” 計測自動制御学会SI2018, 1D2-08 (2018)

    28) M. Takahashi, T. Misu, M. Naemura, M. Fujii and N. Yagi:“Enrichment System for Live Sports Broadcasts using Real-time Motion Analysis and Computer Graphics,” Proceedings of International Conference Broadcast Asia 2007

    (2007)

    29) 高橋,今,長谷山:“アクティブネットを用いたサッカー映像におけるパス可能領域の推定,” 信学論,Vol.92-D,No.4,pp.501-510 (2009)

    30) 中西,仲野,沢田,武藤,柳澤:“TWINS CAM「水面合成 カメラシステム」の開発,” 映情学年次大,2-3 (2019)

    31) 冨岡,菊地, 船津, 安江, 岡本, 梶山, 中島, 宮下, 島本:“8Kスローモーションシステムに向けた取り組み,” 映情学年次大, 企画1-1 (2018)

    32) 角田,三ッ峰,筒口,酒澤,北原,渡辺:“スポーツの超高精細動画像の標準化とその応用 ~8Kにおける体育・スポーツとの連携~ ,” 映情学年次大,S4-9 (2016)

    33) 池谷,高橋,加納,大久保,三ッ峰,三科:“Sports 4D Motionシステムの開発 ~スポーツシーンの四次元空間解析と映像表現~ ,” 映情学年次大,企画1-1 (2018)

    34) 盛岡,角田,三ッ峰:“2.5次元マルチモーションを用いたアルティメットの解析,” 映情学年次大,14D-1 (2017)

    35) M. Takahashi, S. Yokozawa, H. Mitsumine, T. Mishina, Y. Matsuhisa and S. Muramatsu:“Visualization of Stone Trajectories in Live Curling Broadcast using Online Machine Learning,” Proc. ACM Multimedia (ACM MM2017), pp.1390-1397

    (2017)

    36) 特許第4865735号:“スポーツボールの回転パラメータの決定”

    37) 鳴尾,溝田:“ゴルフボールの空気力測定と3次元飛翔軌道解析,” 日本流体力学会誌「ながれ」,Vol.23,No.3,pp.203-211 (2004)

    38) 加藤,三ッ峰:“飛翔体の3次元座標計測に関する一検討 ~ゴルフ中継におけるボールの計測と軌跡表示~ ,” 第36回日本ロボット学会学術講演会予稿集,RSJ2018AC3J2-02 (2018)

    39) T. Misu, M. Naemura, M. Fujii and N. Yagi:“Soccer Formation Classification Based on Fisher Weight Map and Gaussian Mixture Models,” Lecture Notes in Artificial Intelligence,Vol.4938 (The 3rd International Conference on Large-scale Knowledge Resources (LKR 2008)),pp.194-209 (2008)

    40) 三須,苗村,藤井,八木:“選手フォーメーション解析に基づくサッカーイベント判別法,” 映情学誌,Vol.61,No.9,pp.1367-1375 (2007)

    41) 鈴木,高橋,小川,長谷山:“再帰型ニューラルネットワークを用いたサッカー映像における基本戦術の推定に関する検討,” 映情学技報,Vol.42,No.4,pp.131-135 (2014)

    42) 下崎,國吉:“記憶に基づいた時系列パターン予測を行うニューラル・ネットワークモデル,” 日本ロボット学会学術講演会予稿集,3H15 (2002)

    43) F. Gers, J. Schmidhuber and F. Cummins:“Learning to Forget: Continual Prediction with LSTM,” Neural Computation,Vol.12,No.10,pp.2451-2471 (2000)

    44) http://www.pixellot.tv/

    45) 河原木,小山,川本,倉掛,斎藤:“IP制作システムのためのネットワーク構築及びインフラ監視,” 映情学年次大,21D-2 (2018)

    三み

    ッつ

    峰みね

    秀ひで

    樹き

    1991年入局。名古屋放送局を経て,1993年から放送技術研究所において,被写体の映像部品化,映像合成,バーチャルスタジオ,スポーツ映像表現の研究に従事。現在,放送技術研究所空間表現メディア研究部上級研究員。博士(工学)。

    15NHK技研 R&D ■ No.173 2019.1

  • 解説02

    オブジェクト追跡技術の 進展に伴うスポーツ番組 制作の高度化高橋正樹

    2020年に向けて,スポーツ競技の分析を目的とした映像解析技術へのニーズが高まっている。分析結果はスポーツのさまざまな局面で活用されるが,特にスポーツ番組制作においては,競技への理解や興味を深める新たな映像表現への活用が期待されている。スポーツ番組では,選手やボールに視聴者の関心が集まるが,カメラ映像からそれらのオブジェクト(対象物)を検出・追跡することで,その動きを分かりやすく可視化することができる。映像からオブジェクトを検出・追跡する技術は古くから研究されており,近年ではその技術が公式試合の審判にも利用されている。当所でも,従来からオブジェクト追跡技術の研究を推進しており,独自に開発したシステムを随時スポーツ番組に活用してきた。本稿では,映像解析によるオブジェクト追跡技術の進展について解説するとともに,スポーツ番組への応用事例を紹介する。

    1.はじめに2020年に向けて,映像を基にスポーツ競技を理解する技術への期待が高まっている。

    スポーツ映像を処理・分析する試みは従来から行われており,選手のスキル判定,チームプレーの情勢判断,さらにCG(Computer Graphics)技術を用いた放送映像可視化技術などを応用先として発達してきた1)2)。プロスポーツの世界でも,アスリートの技術力強化,チームのデータ解析,ライバル選手・チームへの対策・戦術の立案,誤審の未然防止など,多岐にわたる目的で映像解析技術が利用されている。すでに,テニスやサッカーなどでは,映像解析技術が公式試合の判定にも活用されている3)4)。

    スポーツ映像解析により取得可能な情報の階層構造を1図に示す5)6)。この図では,映像シーケンスを入力とし,段階的に高度な解析を施すことで,得られる情報の質が物理量から意味的内容にまで高まる様子を表している。まず,スポーツ映像のシーケンスを解析して選手やボールなどのオブジェクトを認識し,それらの位置や名前を取得する。これらの情報を利用することで,各選手の移動量・速度の計測や,移動経路の可視化が可能となる。続いて,各オブジェクトの詳細な動きや,各オブジェクトの位置関係を分析することで,シュートやゴールなどの各種イベントを自動判定できる。さらに,各オブジェクトやイベントデータを総合的に分析し,試合内容に関する意味的情報を推定できれば,試合内容

    (コンテキスト)を理解することも可能となる。このように,より高度な映像解析技術を利用することで,選手位置などの物理的情報から試合内容などのセマンティックな(意味的な)

    16 NHK技研 R&D ■ No.173 2019.1

  • 解 説 02

    情報まで幅広く取得できるようになる。選手やボールの位置情報は,シュートやゴールなどの各種イベントや,より高次な試合

    内容の理解に向けた基礎となるため, 特に重要である。GPS(Global Positioning System)センサーやRFID(Radio Frequency Identifier)*1タグを装着することでも選手位置を計測できるが,これらの装着型センサーはプレーに影響をきたすことから,一部を除き,公式試合での利用は制限されている。そこで,非接触型センサーの1つであるカメラ映像から,画像解析により対象物の位置を計測する技術が検討されてきた7)8)。本稿では,各種センサーを用いたオブジェクト追跡技術の中から,画像解析に基づく技術に限定して解説を行う。

    一方,テレビ中継においては,映像解析技術を利用し,競技への理解や興味を深める新たな映像表現を生み出すことが期待されている9)。視聴者の関心は主に選手やボールに集まるが,カメラ映像からそれらのオブジェクトを検出・追跡できれば,その動きを分かりやすく可視化できる。映像中から特定の被写体を検出・追跡する技術はオブジェクト追跡技術と呼ばれ,古くから研究されてきた10)~14)。2図に示すように,この技術は画像特徴のマッチングに始まり,多視点映像解析による3次元位置計測,機械学習を活用した高精度化へと進展し,更には逐次学習による頑健化が図られている。

    機械学習とは,人間が自然に行っている学習と同様の機能をコンピューターで実現しようとする技術・手法のことである。2図の事前学習型では,あらかじめオブジェクトの画像特徴の出現パターンを学習することで,画面内の対象オブジェクトを自動追跡することが可能となる。一方,データを取得するたびに再学習することを逐次学習と呼び,これをオブジェクト追跡に適用することで,姿勢等によるオブジェクトの見え方の変化にも柔軟に

    *1記録媒体であるICタグ(RFIDタグ)に登録された情報を,無線電波によって接触することなく読み書きする仕組み。

    1図 スポーツ映像解析の階層構造

    2図 オブジェクト追跡技術の進展

    映像シーケンス

    オブジェクト

    イベントコンテキスト 内容理解

    イベント認識動作認識

    オブジェクト認識

    情報の質

    逐次学習型

    事前学習型

    多視点映像解析

    マッチングベース

    機械学習

    17NHK技研 R&D ■ No.173 2019.1

  • 対応可能となる。当所でも従来からオブジェクト追跡を軸とした映像解析技術の研究を推進しており,そ

    の成果を随時スポーツ番組へ応用してきた15)~17)。スポーツ中継では,追跡対象や撮影環境が競技によって異なるため,競技や撮影条件に適した映像解析技術が求められる。また競技に合わせて番組が進行するため,解析処理は試技中あるいは直後に完了していることが望ましい。高速処理と同時に高い精度も要求されるため,演算量を抑えつつ,精度を最大限まで高める必要がある。このように,スポーツ中継を対象としたシステム開発においては,競技や撮影環境に適した解析処理を選択し,一般にトレードオフの関係にある“精度”と“速度”のバランスを最適化する必要がある。

    次章では,オブジェクト追跡技術の進展について解説するとともに,それらの技術のスポーツ番組への応用例を紹介する。

    2.オブジェクト追跡技術の進展2.1 マッチングベースのオブジェクト追跡技術

    マッチングベースのオブジェクト追跡処理は,対象領域から特定の画像特徴を抽出し,次フレームの画像中からそれに近い画像特徴を持つ領域を探索する手法である18)。3図に一般的な処理の流れを示す11)。入力カメラ映像に背景差分*2などの前処理を施した後,追跡対象領域(参照領域)を指定して,その領域内から画像特徴を抽出する。次フレーム以降は,この参照領域の画像特徴と探索領域内の画像特徴を比較しながら対象物を追跡する。

    最も基本的なアルゴリズムは,テンプレートマッチングと呼ばれる手法である。この手法では,探索領域内で,参照領域と,各画素値の差の絶対値や2乗和などの総和が最も小さくなる位置をラスタスキャン*3で全探索する。回転やスケール変化などを考慮した場合は計算量が非常に多くなるため,探索を効率的かつ高速に行う手法としてMean Shift法19)*4などが提案された。また,全探索と局所探索の中間的な手法として,確率的に物体位置を推定するParticle Filter20)*5なども提案されている。

    このマッチングベースのオブジェクト追跡処理を応用した例が,野球の投球軌跡表示である。ボールの追跡処理画面の例を4図に示す。投球前に探索範囲の位置やサイズを手

    *2事前に撮影した画像との差異を利用して動物体領域を抽出する手法。

    *3画面の左上から右下まで,水平走査線を高速に走査すること。

    *4データ重心(平均値)への移動を繰り返すことにより,密度分布関数の極大値を検出する手法。

    *5動的システムの状態推定問題を,多数の粒子の数値計算により近似的に解く方法。

    3図 マッチングベースのオブジェクト追跡処理の流れ

    4図 ボールの追跡処理画面の例

    前処理 対象領域の指定特徴量抽出 追跡処理

    カメラ

    オブジェクト位置

    探索範囲

    検出点

    18 NHK技研 R&D ■ No.173 2019.1

  • 解 説 02

    動で指定し,その範囲内でボールを探索する。フレーム間差分処理で動オブジェクトを抽出した後,その中から,最もボールに近い画像特徴(色,形,動き)を有するオブジェクトを検出する。その後,オブジェクトの動きをKalman Filter21)*6で予測し,予測位置へ探索範囲を移動しながら自動追跡する。4図中の緑色の点線は,予測処理の過程で算出した近似曲線である。探索範囲の移動をこの曲線周辺に限定することで,誤検出の少ない高精度な追跡処理を実現している。

    上記の追跡処理を含む,本システムの処理の流れを5図に示す。検出したボールの位置データを基に軌跡CGを描画し,元の放送カメラ映像へ合成して出力する。映像入力から合成映像出力までを,放送カメラのフレームレートで処理可能であり,生中継で利用できる。本システムは2004年から2012年までの9年間にわたり,野球中継で使用された。放送では,投球直後に軌跡合成映像をスロー再生し,ボールの球筋を分かりやすく可視化した(6図)。

    2.2 多視点映像解析による3次元位置計測技術複数のカメラ映像にオブジェクト追跡処理を施し,異なる画角の映像からオブジェクト

    の画像上の2次元座標を求めることで,対象物の3次元位置を算出できる。このカメラの多視点化により,3次元空間での軌跡CG描画や,センサーカメラ*7以外の映像へのCG合成が可能となる。さらに,実空間での位置や移動速度なども算出できるため,プレーのより詳細な分析・解説が可能となる。

    多視点映像の解析による,3次元軌跡CG描画の処理の流れを7図に示す。まず,カメラキャリブレーションを実施し,コートに対する各カメラの位置と姿勢を計測する。このカメラキャリブレーションは,サイズとスケールが既知の格子パターンを撮影することなどで実現できる。得られたカメラの位置・姿勢情報と,各カメラで検出したオブジェクトの画

    *6誤差のある観測値を用いて,動的システムの状態を推定するための計算手法。

    *7オブジェクトの位置計測に用いるカメラ。

    5図 野球の投球軌跡表示システムの処理の流れ

    6図 投球軌跡合成画像

    予測処理

    オブジェクト認識 CG描画

    合成

    カメラ カメラ映像

    予測位置オブジェクト位置

    軌跡CG画像

    軌跡合成映像

    19NHK技研 R&D ■ No.173 2019.1

  • 像座標を組み合わせ,オブジェクトの3次元位置を算出する。具体的には,3次元空間内にカメラの焦点と撮像面上の被写体座標を結ぶ仮想の視線ベクトルを引き,別のカメラからの視線ベクトルとの交点を算出して3次元位置を特定する。実時間でカメラの姿勢情報(パン,チルト,ズーム量)を取得できるバーチャルカメラ雲台を利用すれば,動いているカメラ映像から3次元位置を計測することも可能である。また,位置予測処理を3次元空間内で行うことで,オブジェクトの追跡性能向上も期待できる。

    この多視点映像解析を,ビーチバレーの試合分析に応用した例を8図に示す。2017年全日本ビーチバレー女子選手権の決勝戦において,4台のカメラを用いて試合を撮影し,各映像からボールを追跡して,フレームごとに3次元位置を算出した。8図は,2台のカメラ映像に対する追跡処理の様子を示している。

    上記の決勝戦において,全球分の3次元ボール軌道データを作成し,番組「スポーツイノベーション」での解説に利用した(9図)。3次元空間で解析することにより,サーブの速度や風による軌道の変化など,より詳細な試合分析が可能となった。

    7図 3次元軌跡CG描画の処理の流れ

    8図 多視点映像解析によるボールの追跡処理

    (a)縦位置カメラ映像 (b)横位置カメラ映像

    9図 ビーチバレーの3次元軌跡

    予測処理投影処理

    オブジェクト認識

    CG描画

    3次元位置計測

    カメラキャリブレーション

    カメラ

    予測位置(2D)

    ……

    オブジェクト位置(2D)

    オブジェクト位置(3D)

    軌跡映像

    20 NHK技研 R&D ■ No.173 2019.1

  • 解 説 02

    複数台のカメラを用いたオブジェクトの3次元位置計測技術は,すでにプロスポーツの審判にも活用されている。例えば,プロテニス選手が出場する大会では「チャレンジシステム」という制度がある。これは,選手が審判の判定に異議を唱えた際に,ボールがインかアウトかをCG映像で確認できるという制度である。プロテニス選手のサーブは時速200kmを超えることもあり,審判も目で追えない場合がある。この制度を可能にしているのが「ホークアイ」というシステムである3)4)。ホークアイでは,コートを取り囲むようにハイスピードカメラを10台以上設置し,それぞれの映像からボールを追跡して,フレームごとに3次元位置を算出する。サーブのイン/アウトなどを3次元空間で高精度に判定し,CG映像化して結果を分かりやすく可視化する。同様の技術はサッカーでも活用されており,2014年のブラジルワールドカップでは「ゴールラインテクノロジー」と称してゴール/ノーゴールを自動判定する技術が採用された。

    さらにサッカーでは,選手の3次元位置情報も自動計測されている。日本国内では,データスタジアム社が米国ChyronHego社のTRACABを用いて,Jリーグの試合などで選手やボールの位置データを提供している。この位置データを基に算出した走行距離やスピード,ヒートマップ*8などの統計情報も提供されており,スポーツ観戦の魅力を高める新たなデータとして注目を集めている。

    2.3 機械学習による映像解析近年では,オブジェクト追跡処理の多くに機械学習が用いられている。機械学習を利

    用することで高精度な識別が可能となり,追跡性能を向上させることができる。事前学習型機械学習の追跡処理の流れを10図に示す。事前学習型においては,あら

    かじめ追跡対象オブジェクトの画像と追跡対象以外の画像を用意し,正解の画像を正例,不正解の画像を負例として,各画像から輝度勾配や色ヒストグラム*9などの画像特徴量を抽出する。この画像特徴を基に,教師あり学習*10の枠組みで,サポートベクターマシン22)*11等の識別器を作成しておく。運用時は,オブジェクト候補となる領域から同様の画像特徴を抽出し,識別器による判定でオブジェクトを検出する。

    *8データ行列の個々の値の強弱を色として表現した可視化グラフ。

    *9画像の色の分布を表す統計グラフ。

    *10学習データに正解ラベルを付けて学習する方法。

    *11線形しきい素子を利用して,データを2つのクラスに分類するパターン識別器を構成する手法。

    10図 事前学習型の追跡処理の流れ

    ボール画像(正例)

    非ボール画像(負例)

    機械学習

    候補オブジェクト抽出

    検出結果

    学習時

    運用時

    識別器

    21NHK技研 R&D ■ No.173 2019.1

  • この事前学習型追跡手法は,事前に学習した識別器を更新せずにオブジェクトを追跡するため,高速に動作し,即時処理が求められる生中継に適している。一方で,追跡性能が学習データに大きく依存するため,オブジェクトの見え方が変化する場合や,屋外スポーツ等で照明条件が変化する場合には安定運用が困難となる。

    このような画像特徴の変化に対応するために,運用時に得られた画像ごとに識別器を更新する逐次学習型追跡手法が提案されている。逐次学習型においては,現フレームで検出したオブジェクトの周辺から正例を,その外側領域から負例に相当する画像特徴を抽出し,時々刻 と々識別器を学習し直すことで,追跡頑健性を高めている。運用時の条件に適した追跡処理が可能になる一方で,毎フレームの識別器更新に多くの処理時間を要する。そのため,高速に移動するオブジェクトなどへの対応は難しく,スポーツ中継で逐次学習型追跡手法を活用できる場面は限られる。

    ここでは,カーリング競技において,逐次学習型追跡手法の特徴をうまく利用した軌跡可視化の例を紹介する。低速で移動するオブジェクトは,カメラ画像内での移動量が小さくなるため,必ずしもカメラのフレームレートで追跡処理を行う必要はない。例えば,カーリングのストーンは比較的低速で移動するため,ストーン領域の追跡に逐次学習型追跡手法を利用できる。さらに,カーリングでは選手が氷をブラシで履く動作(スウィーピング)が行われ,11図のように時々刻 と々ストーンの見え方が変化するため,事前学習型追跡手法の適用は難しい。そこで逐次学習を用いて識別器を時々刻々更新し,激しい遮蔽でも追跡が途切れない頑健な処理を実現した。

    2017年全農日本カーリング選手権大会の生中継において,試合中に投げられた全ストーンの軌跡を累積表示した(12図)。ストーンが通過した場所は氷の状態が変化し,滑りやすさや曲がりやすさが変化する。ストーン軌跡を累積表示することで,通常のカメラ映像では視認困難な氷の状態を可視化し,試合状況を分かりやすく解説することができた。

    11図 スウィーピング動作により遮蔽されるカーリングストーン

    12図 全ストーンの軌跡の累積表示

    22 NHK技研 R&D ■ No.173 2019.1

  • 解 説 02

    3.まとめスポーツ映像を解析して選手やボール領域を検出・追跡することで,オブジェクトの位

    置情報を用いた新たな映像表現の生成が可能となる。映像からオブジェクトを追跡する技術は古くから研究されており,当所でもオブジェクト追跡技術を随時スポーツ番組に活用してきた。本稿では,野球,ビーチバレー,カーリング競技への応用事例を紹介しながら,オブジェクト追跡技術の進展について述べた。この技術の進展に伴い,見え方の変化や移動速度の変化にも頑健なオブジェクト追跡が可能となり,スポーツ中継における新たな映像表現を生み出した。一方で,各追跡処理の適用先が特定の競技や撮影環境に限られることも多く,広い範囲に応用可能なオブジェクト追跡技術の実現が今後の課題である。

    近年は,機械学習を用いた手法が主流となっているが,機械学習を用いた映像解析技術は,オブジェクト追跡以外にも自動カメラワーク,自動スイッチング,自由視点映像生成など,その活用の幅を大きく広げている。また,カメラ映像から人物姿勢を理解する技術が一般的になりつつあり,動作認識やイベント認識の高精度化も図られている。

    今後は,オブジェクトの位置や速度などの物理量のみならず,試合状況やプレーの意味を理解したセマンティックな情報までを自動取得する技術の誕生が期待される。これらの最新技術の動向を注視しつつ,今後もより分かりやすく,魅力的なスポーツ番組の制作を目指して,映像解析技術の研究・開発を推進していく。

    23NHK技研 R&D ■ No.173 2019.1

  • 参 考 文 献1) 玉木, 牛山, 八坂:“スポーツ選手の技能向上のための動画像処理とその実用化,” 信学技報,

    PRMU2005-116,pp.13-18 (2005)

    2) 小特集「スポーツ中継における新技術」,映情学誌,Vol.57,No.8,pp.931-951 (2003)

    3) A. Pathak, K. Purohit and A. Thakre:“A Review on Hawk-Eye Technology,” International Journal for Engineering Applications and Technology,Vol.3,No.5,pp.59-63 (2017)

    4) S. Singh, D. Bhatt and P. Raundale:“Hawk-Eye and Goalline Technology,” International Journal on Recent and Innovation Trends in Computing and Communication,Vol.4,No.4,pp.575-580 (2016)

    5) H. Shih:“A Survey of Content-Aware Video Analysis for Sports,” IEEE Trans. on Circuits and Syst. Video Technol.,Vol.28,No.5,pp.1212-1231 (2018)

    6) S. F. de Sousa, A. de A. Araújo and D. Menotti:“An Overview of Automatic Event Detection in Soccer Matches,” Proc. IEEE Workshop on Applications of Computer Vision (WACV),pp.31-38 (2011)

    7) J. R. Wang and N. Parameswaran:“Survey of Sports Video Analysis: Research Issues and Appl icat ions,” Proc. Pan-Sydney Area Workshop on Visual Information Processing (VIP2003),Vol.36 (2003)

    8) C. B. Santiago, A. Sousa, M. L. Estriga, L. P. Reis and M. Lames:“Survey on Team Tracking Techniques Applied to Sports,” Proc. IEEE International Conference on Automatic Control and Intelligent Systems,pp.1-6 (2010)

    9) G. Thomas:“Sports TV Applications of Computer Vision,” BBC Research & Development White Paper,WHP220(2012)

    10) M. Kristan, A, Leonardis, J. Mates, M. Felsberg, R. Pflugfelder, et al.:“The Visual Object Tracking VOT2017 Challenge Results,” Proc. International Conference on Computer Vision Workshop (ICCV2017 Workshop),pp.1949-1972 (2017)

    11) Al-Hussein, A. El-Shafie and S. E. D. Habib:“A Survey on Hardware Implementations of Visual Object Trackers,” arXiv:1711.02441 (2017)

    12) M. Parmar:“A Survey of Video Object Tracking Methods,” International Journal of Engineering Development and Research (IJEDR),Vol.4,No.1,pp.519-524

    (2016)

    13) A. W. M. Smeulders, D. M. Chu, R. Cucchiara, S. Calderara, A. Dehghan and M. Shah:“Visual Tracking: An Experimental Survey,” IEEE Trans. on Pattern Anal. & Mach. Intell.,Vol.36,No.7,pp1442-1468 (2014)

    14) B. Deori and D. M. Thounaojam:“A Survey on Moving Object Tracking in Video,” International Journal on Information Theory (IJIT),Vol.3,No.3,pp.31-46 (2014)

    15) 高橋, 三須, 合志, 藤田:“画像内の物体抽出技術を用いたリアルタイム投球軌跡作画手法,” 信学論,Vol.J88-D-2,No.8,pp.1672-1680 (2005)

    16) M. Takahashi, K. Ikeya, M. Kano, H. Okubo and T. Mishina:“A Robust Volleyball Tracking System Using Multi-View Cameras,” Proc. International Conference on Pattern Recognition (ICPR 2016),pp.2741-2746 (2016)

    17) M. Takahashi, S. Yokozawa, H. Mitsumine, T. Mishina, Y. Matsuhisa and S. Muramatsu:“Visualization of Stone Trajectories in Live Curling Broadcast Using Online Machine Learning,” Proc. ACM Multimedia (ACM MM2017),pp.1390-1397 (2017)

    24 NHK技研 R&D ■ No.173 2019.1

  • 解 説 0218) 藤吉:“物体追跡技術,” 映情学誌,Vol.62,No.6,pp.849-855 (2008)

    19) I. Iman and K. Faez:“Object Tracking with Occlusion Handling Using Mean Shift, Kalman Filter and Edge Histogram,” Proc. Pattern Recognition and Image Analysis (IPRIA) (2015)

    20) M. S. Arulampalam, S. Maskell, N. Gordon and T. Clapp:“A Tutorial on Particle Filters for Online Nonlinear/Non-Gaussian Bayesian Tracking,” IEEE Trans. on Signal Process.,Vol.50,No.2,pp.174-188 (2002)

    21) R. E. Kalman:“A New Approach to Linear Filtering and Prediction Problems,” Trans. ASME Journal of Basic Engineering,pp.35-45 (1960)

    22) G. Anusha and E. G. Julie:“Improving the Performance of Video Tracking Using SVM,” Proc. International Journal of Engineering Trends and Technology

    (IJETT2014),Vol.11,No.3,pp.133-139 (2014)

    高たか

    橋はし

    正まさ

    樹き

    1999年入局。山形放送局を経て,2002年から放送技術研究所において,被写体の認識・追跡,人物の動作認識,スポーツ映像解析の研究に従事。現在,放送技術研究所空間表現メディア研究部に所属。博士(情報学)。

    25NHK技研 R&D ■ No.173 2019.1

  • 01報 告多視点ロボットカメラシステム池谷健佑  三科智之

    Multi-Viewpoint Robotic Camera SystemKensuke IKEYA and Tomoyuki MISHINA

    要   約 A B S T R A C T

    本 研究の目的は,3次元空間をダイナミックに移動する被写体や3次元空間内に広く点在する被写体の多視点映像を,パンフォローおよびズームして撮影し,「タイムスライス」と呼ばれる映像表現(撮影映像をカメラの並びの順番に切り替えることで,視点が被写体の周囲を回り込む映像表現)を実現することである。この映像表現をスポーツ中継のリプレーで利用するためには,放送現場でのシステムの事前準備が短時間で完了するとともに,準リアルタイムでタイムスライス(「bullet time」とも呼ぶ)を生成する必要がある。この目的を達成するために「多視点ロボットカメラシステム」を開発した。本システムでは,複数台のロボットカメラを,1人のカメラマンの操作によって3次元空間内の特定の被写体に向けて一斉に方向制御し,多視点映像を撮影する。そして,撮影映像を計算機に取り込み,射影変換を用いてカメラを仮想的に被写体へ再方向制御することで,カメラマンの操作ミスやロボットカメラの機械的な制御誤差により生じた方向制御エラーを補正し,タイムスライスを準リアルタイムで生成する。我々は,このタイムスライスを「ぐるっとビジョン」と呼んでいる。バレーボール,体操,バスケットボール,柔道といったスポーツシーンを対象とした撮影実験,およびフィギュアスケートの中継における番組利用を通じて,提案手法の有効性を確認した。

    T he main purpose of our research is to generate the bullet time of dynamically moving subjects in 3D space or multiple shots o f sub jec ts w i th in 3D space . I n addition, we wanted to create a practical and generic bullet time system that required less time for advance preparation and generated bullet time in semi-real time after subjects had been captured that enabled sports broadcasting to be replayed. We developed a multi-viewpoint robotic camera system to achieve our purpose. A cameraman controls m u l t i - v i e w p o i n t r o b o t i c c a m e r a s t o simultaneously focus on subjects in 3D space in our system, and captures multi-viewpoint videos. Bullet time is generated from these v ideos in semi - real t ime by correcting directional control errors due to operat ing errors by the cameraman or mechanical control errors by robotic cameras using directional control of virtual cameras based on projective transformation. We confirmed the effectiveness of this method through exper iments and ut i l i zed i t in broadcasting programs dealing with sports scenes.

    26 NHK技研 R&D ■ No.173 2019.1

  • 1.はじめに

    近年,「タイムスライス」と呼ばれる映像表現がさまざまなメディアで使用されるようになった1)~11)。タイムスライスとは,多視点カメラを同期させて被写体を撮影し,撮影映像をカメラの並びの順番に切り替えることで,被写体が静止もしくは低速で動いている状態で,視点が被写体の周囲を回り込む映像表現である。タイムスライスをスポーツ中継で使用することによって,選手の姿勢や動きをさまざまな視点から表現することができ,視聴者にスポーツの各シーンを分かりやすく伝えることができる。

    本研究の目的は,これまで撮影が困難であった,3次元空間をダイナミックに移動する被写体や3次元空間内に広く点在する被写体の多視点映像を,パンフォローおよびズームして撮影し,撮影映像からタイムスライスを実現することである。タイムスライスをスポーツ中継のリプレーで利用するためには,放送現場でのシステムの事前準備が短時間で完了するとともに,準リアルタイムでタイムスライスを生成する必要がある。この目的を達成し,より汎用的かつ実用的なシステムを実現するためには,以下の要求条件を満たす必

    要がある。(1) 3次元空間をダイナミックに移動する被写体に対して,

    多視点カメラを高い精度で方向制御することが可能であること。

    (2) 生放送のスポーツ中継において,競技中のシーンのタイムスライスを,競技直後のリプレーで放送可能な処理時間で生成できること。

    (3) システムの事前準備におけるカメラキャリブレーションが短時間で完了すること。

    これらの目的を達成するために,多視点ロボットカメラシステムを開発した。本システムでは,複数台のロボットカメラを1人のカメラマンの操作によって3次元空間内の被写体に向けて一斉に方向制御し,多視点映像を撮影する(1図)。そして,撮影映像を計算機に取り込み,射影変換*1を用いてカメラの視線方向を仮想的に被写体へ再方向制御することで,カメラマンの操作ミスやロボットカメラの機械的な制御誤差により生じた方向制御エラーを補正し,タイムスライスを準リアルタイムで生成する。我々は,このタイムスライス

    *1 平面を別の平面に射影する変換。

    1図 多視点ロボットカメラの方向制御と撮影可能領域

    2図 機械的方向制御と仮想的方向制御

    : カメラ

    : 撮影可能領域

    (a)機械的方向制御

    注視点

    スレーブ マスター スレーブ

    拡大

    機械的方向制御エラー

    仮想空間内の注視点

    デプス

    (b)仮想的方向制御

    27NHK技研 R&D ■ No.173 2019.1

  • の操作によって,3次元空間内の任意の位置に指定することができ,注視点を被写体の位置に指定することで,被写体の多視点映像を撮影できる。

    まず�