バウンディングボックスとは

バウンディングボックスとは、画像認識でAIが見つけた物体を囲む長方形の枠のことです。自動運転車が歩行者や車を四角い枠で囲んで認識している、あの枠を指します。「この範囲に、この物がある」という情報を座標で示すのが、その役目です。

「どこに・何が」を示す枠

物体検出では、「物体がどこにあるか(位置)」と「それが何か(種類)」を同時に当てます。その位置を示すのがバウンディングボックスです。重要なのは、この枠がAIに物体を教えるための教師データ(正解ラベル)としても使われること。人間が画像の中の物体を一つひとつ枠で囲むアノテーション作業があってはじめて、AIは「これが車」「これが人」と学べます。CNN(畳み込みニューラルネットワーク)などの技術と組み合わせ、自動運転や防犯カメラ、顔検出などで活躍中です。

Topic「一度見るだけ」という名前の検出手法

AIが賢く物体を見つける裏には、地道な人手の作業があります。お手本となる「枠で囲んだ画像」は、多くの場合、人間が一枚ずつ手作業で枠を描いて用意しているのです。ちなみに代表的な検出手法の一つ「YOLO」は “You Only Look Once(一度見るだけ)” の略で、画像を一目で見て検出する速さが名前の由来。AIの“目”の良さは、無数の枠を引き続けた人の手と、巧みな仕組みの合わせ技で支えられています。

バウンディングボックスに関するよくある質問

バウンディングボックスは何のために使うのですか?
物体検出で「物体がどこにあるか(位置)」を長方形の枠と座標で示すために使います。自動運転車が歩行者や車を四角い枠で囲むあの枠で、同時にその物が何か(種類)も当てます。
バウンディングボックスはどうやって用意するのですか?
多くの場合、人間が画像の中の物体を一枚ずつ手作業で枠を描いて用意します(アノテーション作業)。この「枠で囲んだ画像」を正解ラベルとしてAIが学ぶことで、初めて「これが車」「これが人」と見分けられます。AIの“目”は、無数の枠を引いた人の手に支えられています。