アテンションはアノテーションの代わりになるか？：テキスト−画像生成モデルの注視機構を利用した領域分割の弱教師あり学習 - Yahoo! JAPANの研究開発

Publications

カンファレンス (国内) アテンションはアノテーションの代わりになるか？：テキスト−画像生成モデルの注視機構を利用した領域分割の弱教師あり学習

吉橋亮太, 大塚雄也, 土井賢治, 田中智大

第26回画像の認識・理解シンポジウム (MIRU2023)

2023.7.26

拡散モデルに代表される近年の生成モデルはより精細かつ多様な画像データを生成できるようになりつつある一方で，画像認識モデルは未だ人手によるアノテーションに大きく依存している．本稿ではテキスト-画像生成モデルの出力画像と，生成時の内部状態であるテキスト-画像間注視マップを疑似的な領域マスクとして利用する意味領域分割の学習手法，Attn2maskを提案する． Attn2maskは生成モデル学習時にテキストと画像のペアを必要とするものの，領域マスクの人手アノテーションを必要としないためテキスト教示による領域分割の弱教師あり学習手法とみなせる． PASCAL VOCでの評価の結果，生成画像のみで追加アノテーションなしで学習した領域分割モデルが教師あり学習モデルに近い精度を発揮することがわかり，将来より大規模・多クラスの領域分割モデルを構築する上での有用性が期待される．

画像処理