automatic image annotation with probabilistic generative ... ·...

10
技術論文 富士ゼロックス テクニカルレポート No.22 2013 1 確率的生成モデルを用いた 自動画像アノテーション Automatic Image Annotation with Probabilistic Generative Models 画像にその内容を表す“ラベル”を自動的に付与し、 検索用のキーワードとして用いる自動画像アノテー ション技術の開発を行っている。本研究においては少 ない訓練画像でも有効な確率的生成モデルを用いた2 つのアルゴリズムを提案する。第1のアルゴリズムで は、訓練画像が少ないラベルにおける過学習を防ぐた めにラベル間のクロスエントロピーを制約として与 える手法を導入し、生成モデルとしては最高の性能を 得ることができた。また、第2のアルゴリズムでは、 確率推定にRandom Forest識別器を用いることによ り、学習時間、アノテーション時間ともに高速なアル ゴリズムを実現した。 Abstract We are developing automatic image annotation technology that assigns labels to images for image retrieval. In this report, we propose two algorithms that use probabilistic generative models that are effective even for a small number of training images. The first algorithm reduces overfitting for labels associated with a small number of images by maximizing the cross entropy of the models for those labels, thereby achieving the highest performance as an algorithm using generative models. The other algorithm achieved fast training and testing by using Random Forest classifiers for the estimation of probabilities. 執筆者 加藤 典司(Noriji Kato福井 基文(Motofumi Fukui坪下 幸寛(Yukihiro Tsuboshita尾崎 良太(Ryota Ozaki研究技術開発本部 コミュニケーション技術研究所 Communication Technology Laboratory, Research & Technology Group

Upload: others

Post on 20-May-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

技術論文

富士ゼロックス テクニカルレポート No.22 2013 1

確率的生成モデルを用いた 自動画像アノテーション Automatic Image Annotation with Probabilistic Generative Models 要 旨

画像にその内容を表す“ラベル”を自動的に付与し、

検索用のキーワードとして用いる自動画像アノテー

ション技術の開発を行っている。本研究においては少

ない訓練画像でも有効な確率的生成モデルを用いた2

つのアルゴリズムを提案する。第1のアルゴリズムで

は、訓練画像が少ないラベルにおける過学習を防ぐた

めにラベル間のクロスエントロピーを制約として与

える手法を導入し、生成モデルとしては最高の性能を

得ることができた。また、第2のアルゴリズムでは、

確率推定にRandom Forest識別器を用いることによ

り、学習時間、アノテーション時間ともに高速なアル

ゴリズムを実現した。

Abstract

We are developing automatic image annotationtechnology that assigns labels to images for imageretrieval. In this report, we propose two algorithms thatuse probabilistic generative models that are effectiveeven for a small number of training images. The firstalgorithm reduces overfitting for labels associated witha small number of images by maximizing the crossentropy of the models for those labels, therebyachieving the highest performance as an algorithmusing generative models. The other algorithmachieved fast training and testing by using RandomForest classifiers for the estimation of probabilities.

執筆者 加藤 典司(Noriji Kato) 福井 基文(Motofumi Fukui) 坪下 幸寛(Yukihiro Tsuboshita) 尾崎 良太(Ryota Ozaki) 研究技術開発本部 コミュニケーション技術研究所 ( Communication Technology Laboratory, Research &

Technology Group)

技術論文

確率的生成モデルを用いた自動画像アノテーション

2 富士ゼロックス テクニカルレポート No.22 2013

1. はじめに

近年のデジタルカメラの普及により、建築業、

製造業、保険業など数多くの業務現場で写真が

用いられるようになっているが、日々蓄積され

る写真の量は膨大であるため、その分類・整理

に時間がかかっている。また訴求力のあるド

キュメントを作成するために画像素材を用いる

シーンも増えており、所望の画像を短時間で検

索することが求められているが、画像素材にあ

らかじめ人手により検索用のキーワードを付与

することはコスト的に現実的ではない。これら

の課題を解決するために、我々は画像にその内

容を表す“ラベル”を自動的に付与し、検索用

のキーワードとして用いる技術の開発を行って

いる。

画像に複数のラベルを自動的に付与する技術

は、自動画像アノテーションと呼ばれており、

コンピュータビジョンの分野において近年活発

に研究がなされている課題の1つである。自動

画像アノテーションは、扱う問題の広範さと抽

象度の高さから、明示的に認識のためのアルゴ

リズムを設計することが困難であり、そのため

機械学習に基づくアプローチを中心に発達して

いる1)-12)。自動画像アノテーションにおいてこ

れまでに良い性能を達成しているアルゴリズム

は最近傍法に基づく方法が多い。最近傍法では、

あらかじめ複数のラベルが付与された訓練画像

を多数用意しておき、そしてラベルを付与した

いテスト画像に対し、画像特徴が類似した訓練

画像を検索し、その画像に付与されたラベルを

元にテスト画像のラベルを推定する。最近傍法

の代表であるTagProp10)では画像特徴間の類

似度を測るための距離空間上の測度を、訓練画

像を用いて学習することで高い精度を得ている。

しかしながら、一般的に画像特徴は高次元の

ベクトルとなるため、大量の訓練画像を用意し

なければ、テスト画像と類似した訓練画像を見

出すことができず、十分な精度が得られない。

一方、顧客のニーズは多様であり、付与したい

ラベルは顧客ごとに大きく異なると考えられる。

そういった顧客に対してカスタマイズするため

には、訓練画像を顧客ごとに用意する必要があ

るが、セキュリティーやプライバシーの観点か

ら大量の画像を顧客から受け取ることは困難で

ある。そこで我々は比較的少量の訓練画像で高

い精度の得られるアルゴリズムの開発を目指し

ている。

本論文では、確率的生成モデルを用いた自動

画像アノテーションアルゴリズムを提案する。

確率的生成モデルは、有限個のパラメーターで

確率密度を推定する手法であり、そのパラメー

ターは訓練画像から学習される。そしてデータ

に合った適切なモデリングを行えば、比較的少

ない訓練データで良い性能が得られると言われ

ている。さらに最近傍法ではすべての訓練画像

の特徴量を保持する必要があるが、確率的生成

モデルでは少数のパラメーターを保持するだけ

で良いという利点も期待できる。

本論文の構成は以下のとおりである。まず、

第2章では確率的生成モデルを用いた自動画像

アノテーションアルゴリズムについて説明する。

次に第3章では我々が今回考案した2つの確率

モデルについて説明する。1つのモデルは過学

習の問題を解決し、もう1つのモデルは計算速

度の問題を解決したモデルである。第4章では

汎用的なデータベースにおける評価実験の結果

を示し、最後に第5章で結論を述べる。

2. 確率的生成モデルを用いた自動画

像アノテーション

2.1 自動画像アノテーション

自動画像アノテーションアルゴリズムを構築

するためには訓練画像とその内容を表す複数の

ラベルからなる画像コーパスを用意する必要が

ある。今回用いる画像コーパスは、画像全体に

対して複数(1~5個程度)の画像の意味を表わ

すラベルが付与されたデータであり、画像のど

の領域がどのラベルに相当するのかは指定しな

い。すなわち、図1のように1つの画像に対して

複数のラベル、たとえばここでは、“city”、

“mountain”、“sky”、“sun”が付与され

ているが、具体的に画像のどの領域が“sky”に

相当しているのか、あるいは“sun”に相当し

ているのかの指示はない。このようなラベルの

定義により、学習コーパスを作成する際の負荷

を大幅に減らすことができる。また、ドキュメ

技術論文

確率的生成モデルを用いた自動画像アノテーション

富士ゼロックス テクニカルレポート No.22 2013 3

ント中の画像とそのキャプションから学習コー

パスを自動的に作成することも可能になる。自

動画像アノテーションのタスクは、図1で表わ

されるようなラベル付きの画像が複数訓練デー

タとして与えられた時に、新規の画像データに

付与されるべきラベルを予測することである。

2.2 画像生成モデル

画像アノテーションアルゴリズムを確率的な

生成モデルとして記述するためには、まず複数

のラベルが与えられた時に、画像(もしくは画

像特徴)がどのように生成されるかをモデリン

グする必要がある。本研究では、画像を複数の

領域に分割し、各領域の画像特徴は1つのラベ

ルから独立に生成されたものと仮定する。また、

ラベル間の相関は無視し、このようなモデルが

複数あると仮定する。この生成過程は図2のよ

うに表わされる。同様のモデルはSupervised

Multiclass Labeling(SML)1)として既に提唱

されているが、SMLでは生成される画像特徴が

各画素に固定された局所特徴であるのに対し、

我々は領域特徴を用いる。これは、領域特徴の

ほうが局所特徴に比べて表現能力が高く、ラベ

ル間の確率モデルの差を際立たせることが期待

できるからである。

分割された領域数をN、ラベルをc、領域特徴

を , , とすると、N 個の領域特徴からなる

画像Iの生成確率は、

, ,

| | 1 1

となる。ここでp c はラベルcの事前確率であり、

学習コーパスにおけるラベルの頻度から計算さ

れる。p x|c はラベルcが付与された画像群にお

ける領域特徴の確率分布であり、ラベルcの付与

された訓練画像から学習される。p x|c

の具体的な学習同方法は第2章で述べる。同様

に | はラベルcが付与されない画像群にお

ける領域特徴の確率分布であり、ラベルcの付与

されない訓練画像から学習される。

入力された画像に対してのラベル推定はラベ

ルcの事後確率を用いて行われる。入力画像から

抽出された領域特徴を , , とすると、ラベ

ルcの事後確率は、

| , , , , | 2

となる。 , , はラベルcに依存しないた

め、ラベルcの事後確率の対数は、

log | , ,

log log | 3

となる。入力された画像に対してそれぞれのラ

ベルごとに対数尤度(3)を算出し、この値が

閾値以上のものをその画像のラベルとする。

3. 領域特徴の確率モデルとその学習

本章では、前章で述べた領域特徴の確率分布

| をどのようにモデリングするかを説明す

る。前述のSMLでは混合ガウス分布を用いてモ

デリングを行っているが、訓練画像が少ない場

合に訓練画像に対して過剰に適合してしまい、

性能が低下する過学習の問題と、計算時間が長

いという問題を有している。本研究では、これ

らの課題を解決した2つのモデルを提案する。

図1 訓練画像とラベルの例 Example of training image and its labels

c1 xi

N

cK xi

N

・・・

図2 画像生成モデル Model of image generation

技術論文

確率的生成モデルを用いた自動画像アノテーション

4 富士ゼロックス テクニカルレポート No.22 2013

3.1 混合ガウス分布による確率モデル

1番めのモデルは、SMLと同様に混合ガウス

分布を用いつつ、学習時に過学習を回避するモ

デルである。混合ガウス分布は複数のガウス分

布の線形結合で表わされる分布で、次式で与え

られる13)。

| π | , Σ 4

ここでデータxはd次元の特徴ベクトル、 は

混合比率、Kは混合要素数を表わす。 はその和

が1となるように規格化されている。また、

| , Σ は平均 、分散 の多変量ガウス分

布を表わす。確率モデルの学習はラベルcを持つ

訓練画像から抽出された特徴量の集合から、そ

の 分 布 を も っ と も 良 く 表 す パ ラ メ ー タ ー

、 、および を求めることである。これは

(4)式の対数を訓練データの集合に対して加

算した値(対数尤度)を最大化することによっ

て求められる。

しかしながら、このようにラベルごとに学習

を個別に行う場合、訓練画像数がラベルごとに

大きくばらついてしまい、訓練画像が少ないラ

ベルでは過学習の問題が生じてしまう。そこで

過学習を回避するために、それぞれのラベルの

学習に際して学習モデルが全体として具備すべ

き条件をクロスエントロピーのペナルティ項と

して埋め込む方法を考案した。この施策により

個々のモデルの過学習を抑え、アノテーション学

習モデルの全体的な最適化の実現が可能となる。

以下に具体的な方法を述べる。ラベルの集合

全体をC、ラベルを規定しない全訓練データに対

する確率モデルを | とする時、ラベルごと

に学習が行われた学習モデル | の周辺分布

∑ log | は同一の分布を表わしてい

なければならない。すなわち、この2つの分布

のカルバックライブラー情報量は以下のように

0となる。

log log log | 0

5

ここで はラベルを規定しない訓練データ集

合を表わし、i は学習サンプルに付与されたイ

ンデックスである。しかしながらラベルごとに

個別に最適化が行われると両者に“ずれ”が生

じる。そこで本研究では、学習モデルが満たす

べき条件として全データに対する確率モデルと

全てのラベルの学習モデルの周辺確率分布間の

カルバックライブラー情報を最小化させるとい

う制約を課す。(5)式左辺の第1項は不変であ

るので、これは第2項のクロスエントロピーを

最小化させることと同義である。このような制

約を課したうえでそれぞれのラベルにおいて対

数尤度が最も高いモデルパラメーターを求める

ことで全体的なモデルの最適化を実現する。

ここで、非負のパラメーターλ λ 0 を導入

し、損失関数を次のように定義する:

log |

λ log log | 6

右辺第1項はそれぞれのラベルの対数尤度で

あり、第2項はクロスエントロピーによる過学

習抑制のためのペナルティ項である。ここで

はラベルcの学習サンプル集合を表わす。(6)

式を最大化することによりモデルのパラメー

ター 、 、、および が学習される。最大化

についての詳細は文献14)を参照されたい。

3.2 Random Forestによる確率モデル

混合ガウス分布では、(2)式で示されるラベ

ルの事後確率をすべてのラベルについて求める

ためにはO dKNC の演算が必要となる。100ラ

ベル程度の典型的な例では109回の演算となり、

実時間の処理が必要となるアプリケーションに

適用できない。また、学習時間も同様に長くな

る。そこで2番めのモデルは確率モデルとして

Random Forest15)を用いることで、混合ガウ

ス分布に比べて学習およびテストが高速なアル

ゴリズムを実現する。

Random Forestは決定木の集合により構成

された識別器である。決定木は図3のように木

構造の途中に存在して入力データを左右に分類

するノードと、木構造の末端で入力データの属

するクラスを決定するリーフを持つ。一般的に

技術論文

確率的生成モデルを用いた自動画像アノテーション

富士ゼロックス テクニカルレポート No.22 2013 5

・・・ ・・・

c1 c2 c3 c4 c5 c6 ・・・

P(c|l)/P(c) P(c|l)/P(c)

label labelc1 c2 c3 c4 c5 c6 ・・・

},,{:),( 21 KccCCf ki

ki

ki =決定木は過学習を起しやすいが、Random

Forestでは個々の決定木の学習時にランダム

サンプリングされた訓練データを用い、さらに

個々の決定木のノードにおいて選択される次元

をランダムに選ぶことで過学習を防いでいる。

また、木構造であることと、複数のラベルを

同時に扱えることから計算速度は速い。たとえ

ば 深 さ D 、 T 個 の 決 定 木 よ り 構 成 さ れ る

Random Forestでは、事後確率を求めるため

の演算量はO DTN となる。これはラベル数お

よび特徴次元数に依存しないため、スケ―ラビ

リティーのあるアルゴリズムといえる。

我々の用いるRandom Forest識別器では、

各決定木のノードにおいて入力データの特定の

次元を選択して閾値と比較し、左右の分岐を決

定する。さらにリーフに保存された確率テーブ

ルから各クラスに対する事後確率を計算する。

学習では各ノードの選択次元とその閾値および

各リーフの確率テーブルを求めることになる。

各決定木の学習は次のように行われる。まず、

各決定木を構築するための訓練データを全訓練

データからランダムにサンプリングする。そし

て各ノードごとに次元をランダムに選択し、そ

のノードに流れ込む訓練データの左右の分割が

基準を満たすように閾値を定める。分割基準と

し て は Extremely Randomized Clustering

Forests16)で用いられたものと同様に、正規化

されたシャノンエントロピーが最大となるよう

なものを選択するとする17)。また決定木を作成

する際には文献18)で用いられているような枝刈

処理は実施しない。

各決定木を作成後、訓練データ全体を使用し

て確率テーブル(リーフノードl上のラベルcの事後確率) | を次のように計算する。

|αα 7

ここで、 はリーフlに流入する訓練データの

個数であり、 はそのうちラベルcが付与された

ものの個数である。またαは正則化パラメーター

であり、本研究では0.01に設定した。

テスト時は、テスト画像の領域特徴xが各決定

木群のどのリーフにたどり着くかを決定し、そ

のリーフ群における確率テーブルの値を平均化

することによりラベルの事後確率を計算する。

|1

| 8

ここで は特徴xが届くt番めの決定木のリー

フノードである。さらに | をベイズの法則

により | に変換し、(2)式に代入すること

によりラベルcの事後確率が計算される。以上の

アルゴリズムの詳細については文献19)を参照さ

れたい。

4. 評価実験

4.1 データセットと評価方法

本論文では提案手法の有用性を確認するため、

画像アノテーションの評価で広く用いられてい

る 2 つ の デ ー タ セ ッ ト ( Corel5K20) と

IAPRTC1221) ) を 用 い て 評 価 を 行 っ た 。

Corel5Kは文献20で最初に使用された自動ア

ノテーションのためのデータベースであり、画

像(訓練画像4500枚、テスト画像500枚)に

対して1~5個のラベルが付けられている。図4

にCorel5Kの画像の一例を示す。また付与され

たラベルは計371種類であり、そのうちテスト

画像にも付与されたラベルは260種類である。

一方IAPRTC12は訓練画像17,665枚、テス

ト画像1,962枚よりなるデータベースである。

図3 Random Forestを構成する決定木

Decision tree of Random Forest

図4 Corel5Kの画像例 Examples of Corel5K database

技術論文

確率的生成モデルを用いた自動画像アノテーション

6 富士ゼロックス テクニカルレポート No.22 2013

我々は文献7および文献10で使用されている

のと同一の291個のラベルを識別対象とした。

両方のデータベースで各ラベルに対する訓練画

像枚数に大きな不釣り合いが存在する。

画像アノテーション性能の評価は各テスト画

像に対してスコアの高い上位5個のラベルを付

与し、正解ラベルと比較することにより行った。

評価指標としては正解ラベルの中で実際に付

与されたラベルの割合である再現率と、付与さ

れたラベルのうち正解と一致したラベルの割合

である精度を単語ごとに計算し、これらを平均

して平均再現率(R)、平均精度(P)、およびR

とPの調和平均(F)を算出した。さらに再現率

が0より大きいラベルの個数(N+)を算出した。

4.2 画像特徴

前述したように我々のアルゴリズムは1つの

画像から複数の領域特徴を抽出して特徴ベクト

ル群を構成する。具体的には次のような手順で

画像から画像特徴ベクトルを抽出した。まず対

象画像を短辺の長さが320ピクセルになるよ

うに縮小し、格子状に約800の領域に分割する。

分割された領域内の各画素からRGB、CIELAB、

正規化RGの8次元の色特徴および8次元の18

次元のGaborフィルタの出力値(6方向x3サイ

ズ)の合計26次元を抽出する。次に各画素から

抽出された特徴の領域内における平均と分散を

求めて計52次元のベクトルを作成し、領域特徴

とした。抽出されたベクトル群は平均値を0に

標準偏差を1.0になるように正規化して用いた。

このようにして作成された訓練ベクトルデータ

はCorel5Kの場合で合計約3,000,000個と

なった。それぞれのラベルの訓練データ集合は

上限100,000個でランダムにサンプリングし

て作成した。また、ラベルを規定しない全体訓

練 デ ー タ 集 合 は 全 て の 訓 練 デ ー タ か ら

100,000個をランダムにサンプリングして作

成した。

4.3 実験結果

4.3.1 混合ガウスモデルによる評価

まず、第1のモデルに対する評価を行う。第1

のモデルは通常の混合ガウスモデルに対して過

学習に対する対策を施しているため、その効果

を確かめるために低頻度ラベルに対する性能改

善効果を確かめる。比較のためのベース手法は、

(6)式においてλ 0とした場合である。この

時、学習開始時のパラメーターの初期値はラベ

ルの正事例データに基づいてk-meansアルゴ

リズムで定めた。一方、提案手法の初期状態は

全体訓練データ集合 を用いてk-meansアル

ゴリズムによって定めた。

図5は横軸に訓練サンプル数、縦軸にベース

手法と提案手法との再現率の差をとった散布図

である。1つひとつの点はラベルを表わし、0よ

り上にプロットが多いほど性能の改善があるこ

-1.5

-1

-0.5

0

0.5

1

1.5

0 50000 100000

λ=0.001

-1.5

-1

-0.5

0

0.5

1

1.5

0 50000 100000

λ=0.01

-1.5

-1

-0.5

0

0.5

1

1.5

0 50000 100000

λ=0.01

-1.5

-1

-0.5

0

0.5

1

1.5

0 50000 100000

λ=0.001number of samples

diffe

renc

e of re

cal

l

(a)Corel5k (b)IAPRTC12

図5 訓練画像数と再現率の改善度 Improvement of recall against number of training images

技術論文

確率的生成モデルを用いた自動画像アノテーション

富士ゼロックス テクニカルレポート No.22 2013 7

80

100

120

140

160

180

0 0.001 0.01 0.1 1

λ

245

250255

260265

270275

0 0.001 0.01 0.1 1

λ

N+

(a)Corel5k (b)IAPRTC12

とを示す。このグラフを見ると分かるように、

提案手法は学習サンプル数が30,000以下の領

域でベース手法では抽出できなかった多数のラ

ベルを抽出できている。このことから本提案手

法は、サンプル数の少ないラベルに対して過学

習を低減できているといえる。

図6はパラメーターλに対するN+(抽出ラベル

数)を示している。λを大きくするに従いN+も

改善し、制約項の効果が確認できる。

次に、提案手法と現在発表されている代表的

な自動画像アノテーション手法との性能を比較

した(表1)。表の性能値は、それぞれの論文か

ら抜粋したものであり、斜体のアルゴリズムは

最近傍法をベースとしたものである。この表を

見ると分かるように、提案手法はTagPropには

及ばないものの再現率、N+において非常に高い

値を示していることが分かる。上位にある手法

は、ほとんどが最近傍法ベースであり、生成モ

デルの中では最も高いスコアを記録した。

Method Train[s] Test[s]

(per image)

GMM(Corel5K) 1.8x105 1.4x101

GMM(IAPRTC12) 7.6x105 1.1x101

RF(Corel5K) 9.6x102 3.4x10-1

RF(IAPRTC12) 1.6x103 6.7x10-1

4.3.2 Random Forestモデルによる評価

次にRandom Forest識別器を用いたモデル

の評価を行う。Corel5KとIAPRTC12による

評価結果を表1に示す。ここでRandom Forest

のパラメーターは予備実験によってT=2、

D=24、ランダムサンプリングする訓練データ

数は216個に決定した。

性能は混合ガウス分布に比べて劣るものの、

他の論文の手法と同等の性能が得られている。

表2には混合ガウス分布モデルとRandom

Forestモデルの計算時間の比較を示す。計算時

間はCore2Duo®/3GHzによって測定した。

Random Forestモデルを使用した場合、混合

ガウス分布モデルと比較して訓練時間で100

分の1以下、アノテーション時間も10分の1以

下と大幅に短縮されていることがわかる。

最後にCorel5Kにおけるアノテーション結

果の例を図7に示す。

5. まとめ

本研究において我々は確率的生成モデルを用

いた自動画像アノテーションアルゴリズムを提

案し、2種類のアルゴリズムを開発した。訓練

画像が少ないラベルにおける過学習を防ぐため

に、ラベル間のクロスエントロピーを制約とし

て与える手法を導入し、生成モデルとしては最

高の性能を得ることができた。

また、Random Forest識別器を用いること

により、若干性能は劣るものの、学習時間、ア

ノテーション時間ともに高速なアルゴリズムを

実現した。

このように高精度と高速の2つのモデルを用

意することにより、ユーザーの要求にマッチし

た技術を提供できると考えている。

Corel5K IAPRTC12

R P F N+ R P F N+

TagProp 10) 42 33 37 160 35 46 40 266

Our Method

(GMM) 38 29 33 149 31 32 31 263

CBKP 8) 33 29 31 142 - - - -

GS 9) 33 30 31 146 29 32 30 252

MF 6) 29 29 29 - - - - -

JEC 7) 32 27 29 139 29 28 28 250

Our Method

(RF) 26 34 29 108 24 30 27 226

MSC 5) 32 25 28 136 - - - -

TGLM 4) 29 25 27 131 - - - -

DCMRM 3) 28 23 26 135 - - - -

SML 1) 29 23 26 137 - - - -

LASS 7) 29 24 26 127 29 28 28 246

AGAnn 2) 27 24 25 126 - - - -

図6 再現率が0でないラベル数 Number of labels with non-zero recall

表1 代表的な手法との性能比較 Comparison with other representative methods

表2 学習およびテスト時間 Processing time for training and testing

技術論文

確率的生成モデルを用いた自動画像アノテーション

8 富士ゼロックス テクニカルレポート No.22 2013

自動画像アノテーション自体はまだ発展途上

の技術分野であり、あらゆるシーンで活用でき

るレベルには至っていない。たとえば背景が複

雑で変動が大きい画像では十分な性能が得られ

ない。今後も精度向上を継続して行うことによ

り、応用先を広げていきたい。

6. 商標について

Core2Duo®は、米国Intel Corporationの米

国およびその他の国における登録商標です。

その他、掲載されている会社名、製品名は、

各社の登録商標または商標です。

7. 参考文献

1) G. Carneiro, A.B. Chan, P.J. Moreno,

and N. Vasconce-los, “Supervised

learning of semantic classes for image

annotation and retrieval”, IEEE Trans.

on PAMI, 29, pp.394–410 (2007).

2) J. Liu, M. Li, W.-Y. Ma, Q. Liu, and H. Lu,

“An adaptive graph model for

automatic image annotation”, Proc. of

ACM Int. Workshop on Multimedia

Information Retrieval(2006), pp.61 –

70.

3) J. Liu, B. Wang, M.Li, Z.Li, W.-Y. Ma, H.

Lu, and S. Ma, “Dual Cross-Media

Relevance Model for Image

Annotation”, Proc. of ACM Int. Conf.

on Multimedia(2007), pp.605–614.

4) J. Liu, M. Li, Q. Liu, H. Lu, and S. Ma,

“ Image annotation via graph

learning”, Pattern Recognition, 42,

pp.218–228 (2009).

5) C. Wang, S. Yan, L. Zhang, and H.-J.

Zhang, “Multi-label sparse coding for

automatic image annotation”,

Proceeding of CVPR (2009),

pp.1643-1650.

6) N. Loeff, and A. Farhadi, “Scene

Discovery by Matrix Factorization”,

Proceeding in ECCV (2008),

pp.451-464.

7) A. Makadia, V. Pavlovic, and S. Kumar,

“A new baseline for image

annotation”, Proceeding in ECCV

図7 アノテーション結果の例 Examples of annotation results

本技術を説明する動画を

ご覧いただけます。

技術論文

確率的生成モデルを用いた自動画像アノテーション

富士ゼロックス テクニカルレポート No.22 2013 9

(2008), pp.316–329.

8) Z. Lu, H. Ip, and Q. He, “Context-based

multi-label image annotation”,

Proceeding in CIVR (2009), pp.1-7.

9) S. Zhang, J. Huang, Y. Huang, Y. Yu, H.

Li, and D. N. Metaxas, “Automatic

image annotation using group

sparsity”, Proceeding in CVPR (2010),

pp. 3312-3319.

10) M. Guillaumin, T. Mensink, J. Verbeek,

and C. Schmid, “TagProp:

Discriminative metric learning in

nearest neighbor models for image

auto-annotation,” Proceeding in

ICCV(2009), pp.309–316.

11) D. Blei, and M. Jordan, “Modeling

annotated data”, Proc. ACM SIGIR

Conf. Research and Development in

Information Retrieval (2003).

12) C. Wang, D. Blei, and L. Fei-Fei,

“Simultaneous image classification

and annotation”, Proceeding in CVPR

(2009), pp.1903-1910.

13) C. Bishop, “Pattern Recognition and

Machine Learning”, Springer New

York (2006).

14) Y. Tsuboshita, N. Kato, M. Fukui, and

M. Okada, “Image Annotation Using

Adapted Gaussian Mixture Model”,

Proceeding in ICPR (2012),

pp.1346-1350.

15) L.Breiman, “Random Forests”,

Machine Learning, vol.45 (2001).

16) F. Moosmann, E. Nowak, and F. Jurie,

“Randomized Clustering Forests for

Image Classification”, Trans. on

Pattern Analysis and Machine

Intelligence, vol.30, no.9 (2008).

17) L.Wehenkel, “On Uncertainty

Measures Used for Decision Tree

Inductions”, IPMU, (1996).

18) J.Shotton, M.Johnson, and R.Cipolla,

“Semantic Texton Forests for Image

Categorization and Segmentation”,

Proceeding CVPR (2008).

19) M. Fukui, N. Kato, and W. Qi,

“Multi-Class Labeling Improved by

Random Forest for Automatic Image

Annotation”, Proceeding IAPR MVA

(2011), pp.202-205.

20) P. Duygulu, K. Barnard, J. Freitas, and

D. Forsyth, “Object Recognition as

Machine Translation: Learning a

Lexicon for a Fixed Image Vocabulary”,

ECCV (2002), pp.349-354.

21) M. Grubinger, DC. Paul, H. Müllar, and

T. Deselaers, “The IAPR Benchmark: A

New Evaluation Resource for Visual

Information Systems”, Proceeding Intl.

Conf. on Language Resources and

Evaluation (2006).

筆者紹介

加藤 典司 研究開発本部 コミュニケーション技術研究所に所属

専門分野:機械学習、画像認識

福井 基文 研究開発本部 コミュニケーション技術研究所に所属

専門分野:機械学習、コンピュータビジョン

坪下 幸寛 研究開発本部 コミュニケーション技術研究所に所属

専門分野:機械学習、ネットワーク分析

尾崎 良太 研究開発本部 コミュニケーション技術研究所に所属

専門分野:画像認識、機械学習

今年度の「富士ゼロックステクニカルレポート」は「SkyDesk Media Switchアプリ」で、スマートフォン、タブレットから論文に関連した動画に簡単にアクセスしてご覧いただけます。App Store、Google Play からSkyDesk Media Switch のアプリ(ダウンロード無料)をインストールし、アプリを起動したスマートフォンで紙面の円形のマークを撮影すると、各関連情報にアクセスいただけます。*対象OS(iOS): iOS5.1~6.0、Android™ 2.3またはAndroid™ 4.0*アクセスできる動画のリンク先は、予告なく閉鎖される場合がありますので、予めご了承ください。

●iOSの商標はCiscoの米国およびその他国のライセンスに基づき使用されています。 ●App Storeは、Apple Inc.が運営するiPhone、iPad、iPod touch向けアプリケーションソフトウェアのダウンロードを行えるサービスの名称です。 ●Android™はGoogle Inc.の商標です。 ●Google Playは、Google Inc.の商標です。 ●その他の掲載されているサービス、商品名等は各社の登録商標または商標です。

■SkyDesk Media Switch アプリのインストールの手順

■SkyDesk Media Switch アプリのご利用手順

App Store/Google Playにアクセス

「Media Switch」で検索 インストールを実行

Media Switch

アプリを起動

画面右上のボタンから「テクニカルレポートNo.22 2013」を選択または検索

「マークを撮影してください。」をOKする

カメラアイコンをタップして撮影モードに移動

円形マークがガイドの中に入るようにして撮影

送信するとリンク先ページを表示

テクニカルレポートNo.22 2013

撮影前に必ず、画面右上のコレクション選択ボタンを押す

円形マークをガイドに入れて!

マークを撮影してください

OK