glnet による空撮画像のセマンティックセグメンテーション小倉...

補助ブランチを導入した GLNetによる空撮画像のセマンティックセグメンテーション

EP16025 小倉一真指導教授：山下隆義

1.はじめに超高解像度画像のセマンティックセグメンテーションは，

広域の情報を迅速に把握するための手段として，需要が高まっている．CNNを用いた超高解像度画像のセマンティックセグメンテーションでは，推論時にメモリ使用量が大幅に増加する．GLNet[1]は，ダウンサンプリングを行った画像とパッチで切り分けた画像を使用することにより，メモリ使用量を抑えた手法である．しかし，GLNetはダウンサンプリングによる解像度の低下により，小さなオブジェクトの識別が困難である．そこで本研究では，GLNetにパッチ分解サイズを大きくした画像を入力する補助ブランチを追加することでメモリ使用量を抑えつつ精度向上を図る．2.GLNet

GLNet は，ダウンサンプリングした画像を入力するグローバルブランチと，パッチ画像を入力するローカルブランチから構成される．GLNetの処理の流れを図 1に示す．各ブランチの特徴マップを共有することにより，ダウンサンプリングのみを使用した際の問題点であるジャギーの影響を緩和することが可能である．

patch 1 patch 2 patch NAuxiliary

Auxiliary

Global

Auxiliary

patch 1 patch Npatch 2

Auxiliary

Local Branch

Global Branch

patches

downsamplePrediction

Regularization Aggregationdeep

feature mapsharing

Global

500×500

500×500Input Image

2448×2448

Local Branch

Global Branch

patches

downsamplePrediction

Regularization Aggregationdeep

feature mapsharing

Global

500×500

500×500Input Image

2448×2448

図 1: GLNetの処理の流れ3.提案手法

GLNet ではダウンサンプリングによる局所領域の情報の損失が多いため，小さなオブジェクトのセマンティックセグメンテーションが困難である．そこで本研究では，パッチ分割サイズを大きくした画像を入力する補助ブランチを導入することで，局所領域の特徴の損失を抑制する手法を提案する．

3.1.補助ブランチを導入したGLNet

ネットワークは全体をダウンサンプリングした画像を入力するグローバルブランチとパッチ画像を入力するローカルブランチ，パッチ分割サイズを大きくし，ダウンンサンプリングを行った画像を入力する補助ブランチで構成される．ローカルブランチに入力する画像は重なりを考慮して作成する．図 2にネットワークの構造と特徴マップ共有の流れを示す．補助ブランチはグローバルブランチと特徴マップ共有を行うことで，大域の特徴を取得できる．また，補助ブランチはグローバルブランチよりも高い解像度を入力するため，細部の情報の欠落を抑えることが可能である．ローカルブランチからグローバルブランチへの特徴マップ共有を行わないことで補助ブランチの追加によるメモリ使用量の増加を抑制する．

patch 1 patch 2 patch NAuxiliary

Auxiliary

Global

Auxiliary

Auxiliary Branch

Local Branch

Global Branchdownsample

Input Image

patches

downsample

Prediction

Regularization

Aggregation

deepfeature map

sharing

Global

Auxiliary

patches

2448×2448

500×500

1224×1224

500×500

deepfeature map

sharing

1. crop 2. upsample 3. concatenate

featuremap

featuremap 1

1. crop 2. upsample 3. concatenate

Auxiliaryfeature

Localfeaturemap 1

図 2: 補助ブランチを導入した GLNet

3.2.特徴マップの共有特徴マップは大域の特徴を持つブランチから局所領域の

特徴を持つブランチへ共有を行う．まず，参照している入力画像と同じ位置でトリミングを行う．その後，共有するブランチの特徴マップのサイズと一致するようにアップサンプリングを行い，共有するブランチの特徴マップと連結することにより特徴マップを共有している．4.評価実験従来の GLNetと提案手法を用いて，セマティックセグ

メンテーションの評価実験を行う．

4.1.実験概要セマティックセグメンテーションの評価実験を行うにあ

たり，衛星画像のデータセットである DeepGlobe LandCover Classification を使用する．803 枚の超高解像度画像で構成されており，学習に 454枚，検証に 142枚，テストに 207枚をランダムに分割し使用する．

4.2.実験結果図 3にセグメンテーション結果を示す．通常の GLNet

と提案手法の結果を比較すると，提案手法は上段の水域クラスが GLNetよりも精度が向上していることが確認できる．しかし，下段の放牧地クラスと農業地クラスはGLNetと比較して精度が低下していることが分かる．

入力画像教師画像 GLNet 提案手法

農業地帯都市地帯放牧地帯森林水域不毛地帯

図 3: セグメンテーション結果表 1 に GLNet と提案手法の class accuracy と mIoU，

メモリ使用量の比較を示す．表 1より，補助ブランチを導入することで最も出現確率の低い水域クラスの accuracyが向上した．メモリ使用量を比較すると，提案手法はGLNetと比較して約 250MBの増加のみで小領域の検出精度を向上させることができた．一方で，mIoUは GLNetより低下していることが分かる．特に，放牧地クラスの accuracyを比較すると，提案手法は精度が低下していることから，農業地クラスや放牧地クラスのような類似クラスの識別に影響があったと考えられる．これは，パッチで切り取った画像を追加で使用しているため，局所的な特徴に過剰に反応したことが原因だと考えられる．表 1: class accuracyとmIoUとメモリ使用量比較

class accuracy [%]mIoU [%] メモリ使用量 [MB]

水域農業地放牧地出現確率 2.3 59.0 7.3 - -

GLNet 82.7 95.3 50.6 69.9 2101

提案手法 84.6 94.5 40.8 67.4 2373

5.おわりに本研究では，GLNetに補助ブランチを導入することで，

約 250MBのメモリ使用量の増加で小領域の識別精度の向上を確認した．しかし，類似クラスの識別精度の低下によるmIoUの低下を確認した．今後は類似クラスの識別精度向上について考案する．参考文献[1] W. Chen, et al., “Collaborative Global-Local Networks

for Memory-Efficient Segmentation of Ultra-High Reso-

lution Images”, CVPR, 2019.

glnet による空撮画像のセマンティックセグメンテーション小倉...

Documents

[ショートペーパー]歩行者検出におけるグランドチャレンジmprg.jp/data/mprg/f_group/f180_fujiyoshi2016.pdf ·...

19806-odile glnet '7 alain gresse (lionel) 1--8- 'l'hierry...

deconvolutional single shot detector...

cascaded fast による特徴点検出 ep09097...

neural baby talk...

chamfer matching...

collaborative global-local networks for memory-efficient...

時空間特徴に基づくエスカレータシーンにおける人の異常行動検知mprg.jp/data/mprg/f_group/f071_murai2008.pdf ·...

neural baby talk による注意喚起を目的とした...

0 2 glnet 会報 3 2 10 日 tel no. · 2015-10-06 · 1...

deep convolutional neural network...

real-time deep video spatial resolution upconversion system...

距離情報に基づく人検出と動作認識に関する研究...

sc-rrtを用いた自動運転のための経路生成mprg.jp/data/mprg/f_group/f20190612_naruse.pdfsc-rrtを用いた自動運転のための経路生成...

iterated graph cuts by multi-level smoothing for image...

deep learning によるシングルショット oct...

回帰型 deep convolutional neural network...

real-time deep video spatial resolution upconversion system...

convolutional-recurrent neural network...

画像からの統計的学習手法に基づく人検出mprg.jp/data/mprg/b_group/b057_yamauchi2013.pdf ·...

glnet による空撮画像のセマンティックセグメンテーション 小倉...

glnet による空撮画像のセマンティックセグメンテーション小倉...