人工知能 (AI) のトップ オブジェクト検出アルゴリズムとライブラリ

コンピューター ビジョンの科学では、最近、研究の難しい分野と見なされることが多いオブジェクトの識別に劇的な変化が見られます。 オブジェクトのローカリゼーションと分類は、2 つのプロセスが連携して複雑であるため、コンピューター ビジョンの研究が難しい分野です。 ディープ ラーニングと画像処理における最も重要な進歩の 1 つは、オブジェクトの検出、特定の画像内のオブジェクトの位置特定とラベル付けです。 オブジェクト検出モデルは、いくつかのオブジェクトを認識して見つけるように教えることができるため、適応性があります。 アイテムのローカリゼーションを作成するプロセスでは、多くの場合、境界ボックスが使用されます。

オブジェクト検出への関心は、ディープ ラーニング技術や最先端の​​画像処理ツールが登場するずっと前から、長い間強くありました。 オブジェクト検出のモデルは、非常に特定のものを探すように教えられることがよくあります。 画像、動画、またはリアルタイム プロセスは、構築されたモデルの恩恵を受けることができます。 オブジェクト検出では、オブジェクトの特性を使用して、探しているオブジェクトを決定します。 オブジェクト検出モデルは、辺の長さが等しい正方形を形成する 4 つの直角を探すことによって、正方形を検索する場合があります。 オブジェクト検出モデルが球状のものを見つけようとすると、その形状を構築できる中心を探します。 顔認識と物体追跡は、これらの識別方法のアプリケーションの例です。

物体検出の頻繁な用途には、自動運転車、物体追跡、顔の検出と識別、ロボット工学、ナンバー プレート認識などがあります。

まず、現在利用可能な最高の物体検出アルゴリズムを見てみましょう。

1. 勾配方向ヒストグラム (HOG)

画像処理やさまざまな形式のコンピューター ビジョンでは、勾配方向ヒストグラム (HOG) がオブジェクト検出の特徴記述子として使用されます。 HOG アルゴリズムは、勾配方向付けプロセスを使用して、画像の最も重要な特徴を特定します。 勾配方向記述子のヒストグラムの方法では、検出ウィンドウなど、イメージの特定の領域で勾配方向が発生する場合があります。 HOG のような特徴の単純さは、それらに含まれる情報をより簡単に消化できるようにします。

くびれ 勾配方向ヒストグラム (HOG) は、オブジェクト識別の初期段階で重要なブレークスルーでした。 それはいくつかの重大な欠点を被りました。 写真の複雑なピクセル計算には時間がかかるため、スペースが限られているオブジェクト認識の場合、うまく機能しないことがあります。

2. 高速 R-CNN

Fast R-CNN 手法、または Fast Region-Based Convolutional Network 手法は、オブジェクトを検出するためのトレーニング アルゴリズムです。 この方法は、R-CNN と SPPnet の主な弱点に対処しながら、速度と精度を向上させます。 Python と C++ は、高速な R-CNN ソフトウェア (Caffe) を作成します。

3. より高速な R-CNN

R-CNN と同様に、Faster R-CNN はオブジェクト検出方法です。 R-CNN および Fast R-CNN と比較して、この方法は領域提案ネットワーク (RPN) を利用することで費用を節約します。RPN はフルイメージの畳み込み機能を検出ネットワークと共有します。

Faster R-CNN モデルは、R-CNN ファミリの最先端のバリアントであり、その前身よりも大幅に高速化されています。 R-CNN および Fast R-CNN モデルは、選択的検索アルゴリズムを使用して領域提案を計算します。 ただし、Faster R-CNN 手法は、より堅牢な領域提案ネットワークにアップグレードされます。

4. 領域ベースの畳み込みニューラル ネットワーク (R-CNN)

領域ベースの畳み込みニューラル ネットワークは、HOG や SIFT と比較してオブジェクト検出を大幅に強化します。 R-CNN モデルで選択された機能を使用して、最も重要な機能 (多くの場合、約 2000 の機能) を抽出します。 これらのより実質的な地域提案を達成できる選択的検索方法を計算プロセスで使用して、どの抽出が最も重要であるかを判断できます。

オブジェクトを検出するために、R-FCN は領域ベースの検出器を使用します。 Fast R-CNN や Faster R-CNN のような高価な領域ごとのサブネットワークを使用する代わりに、この領域ベースの検出器は畳み込みであり、実質的にすべての計算が画像全体で共有されます。 R-FCN は、Faster R-CNN と同様に、さまざまな層で共有される完全な畳み込み設計のコレクションから構築されています。

5. 地域ベースの完全畳み込みネットワーク (R-FCN)

オブジェクトを検出するために、R-FCN は領域ベースの検出器を使用します。 R-FCN は、Faster R-CNN と同様に、さまざまな層で共有される完全な畳み込み設計のコレクションから構築されています。 この手法でトレーニング可能なすべての重みレイヤーは、関心領域 (ROI) を互いに分離し、それぞれの背景から分離する畳み込みです。

6. シングルショット検出器 (SSD)

オブジェクト識別タスクのリアルタイム計算への最も迅速なアプローチの 1 つは、マルチボックス予測用のシングル ショット検出器です。 SSD は、Single Shot Detector の略で、高度にトレーニングされた単一のディープ ニューラル ネットワークを使用して写真内のオブジェクトを検出する技術です。 SSD メソッドは、境界ボックスの出力空間を、さまざまな縦横比の画像で使用するために、定義済みのボックス サイズと形状のコレクションに分割します。 このアプローチは、特徴マップに適用されると、離散化後の位置に応じて拡大または縮小されます。

SSD はすべてのコンピューティングを単一のネットワークに組み込み、提案の作成やピクセル/機能のリサンプリングなどの中間フェーズを不要にします。 SSD はトレーニングと推論のための統一されたフレームワークを提供し、異なるオブジェクト提案フェーズを使用するアプローチと比較して競争力のある精度を提供します。

7。 YOLO (You Only Look Once)

物体検出の場合、YOLO (You Only Look Once) は、世界中の科学者が使用する一般的な手法です。 この技術を使用する標準の YOLO モデルは、1 秒あたり 45 フレームのリアルタイム レートで画像を分析しますが、ネットワークのよりコンパクトなバージョンを使用する Fast YOLO は、1 秒あたり 155 フレームを処理し、mAP の 2 倍を達成します。他のリアルタイム検出器。

その速度に加えて、YOLO アルゴリズムの全体的な高精度は、他のアプローチを悩ませる厄介なバックグラウンド ミスの種類を排除することから得られます。 そのデザインのおかげで、YOLO は多くの項目をすばやく学習して比較できます。 ただし、画像やビデオ内の小さなものを認識すると、再現率が低下します。

8. RetinaNet

単発オブジェクト識別機能を備えた最高のモデルの 1 つである RetinaNet は、2017 年に発売され、当時の他の著名なオブジェクト検出アルゴリズムをすぐに上回りました。 物体検出に関しては、現在 RetinaNet がトップ アルゴリズムの 1 つです。 シングル ショット検出器の代わりに使用して、写真の処理中に、より優れた、より高速で信頼性の高い結果を提供できます。

9. 空間ピラミッド プーリング (SPP-net)

Spatial Pyramid Pooling (SPP-net) と呼ばれるネットワーク トポロジは、サイズや倍率に関係なく、画像の固定長表現を提供する場合があります。 研究者は、SPP-net を使用して、完全な画像から特徴マップを 1 回計算した後、任意の領域 (サブ画像) の特徴をプールすることにより、検出器をトレーニングするための固定長表現を構築できます。 彼らは、ピラミッド プーリングはオブジェクトの変形に耐性があり、SPP-net はすべての CNN ベースの画像分類アルゴリズムを改善すると述べています。

オブジェクト検出は、コンピューター ビジョンと画像処理のサブフィールドであり、デジタル メディア内のセマンティック アイテムの定義済みクラスの例を探します。 あまり知られていませんが、同じように役立つ 5 つの便利なオープンソースのカスタム オブジェクト認識ライブラリを見てみましょう。

ImageAI ライブラリの主な目的は、最小限のコードを使用してオブジェクト識別プロジェクトの効率的な戦略の開発を促進することです。 ImageAI Python ライブラリは、最先端の AI 機能を現在のソフトウェアとハ​​ードウェアに組み込むのに使いやすいです。 オブジェクト認識と画像処理は、ImageAI ライブラリがさまざまなコンピューター ビジョン アルゴリズムとディープ ラーニング アプローチを提供することで開発者を支援することを望んでいる 2 つの分野にすぎません。

ImageAI ライブラリを使用して、多くのオブジェクト検出関連の操作を実行できます。 これらには、画像認識、画像オブジェクト検出、ビデオ オブジェクト検出、ビデオ検出分析、カスタム画像認識のトレーニングと推論、およびカスタム オブジェクト検出のトレーニングと推論が含まれます。 画像認識機能により、写真内の最大 1000 個の個別のアイテムを識別できます。 ImageAI は、特定の設定や業界での画像認識など、コンピューター ビジョンのさまざまなニッチおよび一般的な用途に役立ちます。

Mmdetection は無料の Python ベースのオブジェクト検出スイートです。 検出フレームワークを構成要素に分解し、他のモジュールを組み合わせることで特注のオブジェクト検出アーキテクチャを簡単に組み立てることができます。 OpenMMLab プロジェクトには、このツールが含まれています。

コンピューター ビジョンで使用されるディープ ラーニング技術に関して、GluonCV は最先端の実装の大部分を備えたトップ ライブラリ フレームワークの 1 つです。 その最も重要な特性のいくつかは、API、実装戦略、およびトレーニング データセットの包括的なコレクションです。 このリソースのコレクションの主な目的は、この分野に関心のあるすべての人が目標をより迅速に達成できるよう支援することです。 コンピューター ビジョンのディープ ラーニング モデルに関して言えば、GluonCV は SOTA メソッドの実装をカバーしています。

このフレームワークは、さまざまな活動を実行するために現在利用可能なすべての最先端の方法を提供します。 MXNet および PyTorch と互換性があり、幅広いトピックを開始するのに役立つチュートリアルやヘルプ ファイルなどの豊富なリソースを提供します。 ライブラリのトレーニング モデルの膨大なコレクションを使用して、ニーズに合わせて機械学習モデルを調整できます。

そのような効果的な実装の 1 つが YOLO v3 パラダイムです。 YOLOv3 TensorFlow ライブラリは、オブジェクト検出処理とコンピューティングのための YOLO アーキテクチャの先駆的な実装です。 迅速な GPU 計算、効率的な結果とデータ パイプライン、重み変換、トレーニング期間の短縮などを提供します。 このライブラリは次のセクションのリンクから入手できますが、このフレームワークの開発は (他のほとんどのフレームワークと同様に) 中止され、代わりに PyTorch が使用されています。

TensorFlow と同等の Darkflow は、darknet プロトコルの翻訳です。 ダークネット フレームワークに着想を得た Darkflow は、元のコードを Python 言語と TensorFlow に移植したもので、さまざまな開発者やデータ サイエンティストが使用できるようになっています。 ダーク フロー アーキテクチャのインストールには、いくつかの基本的なコンポーネントが必要です。 Python3、TensorFlow、NumPy、および Opencv は、これらの必須の基礎のいくつかの例です。

ダーク フロー ライブラリを使用すると、多くのことが可能になります。 ダーク フロー フレームワークは YOLO モデルをサポートしており、ユーザーはモデル固有のカスタム ウェイトを取得することもできます。 darkflow ライブラリは、アノテーション解析、ネットワーク設計、フローを使用したグラフ プロット、モデル トレーニング、データセットのカスタマイズ、リアルタイムまたはビデオ ファイルの作成、protobuf 形式でのモデルの保存、同様のアプリケーションでの Darkflow フレームワークの使用など、多くのタスクをサポートしています。

現在でも、オブジェクトの識別は、ディープ ラーニングとコンピューター ビジョンの最も重要な用途の 1 つです。 物体検出技術には、いくつかのブレークスルーと開発がありました。 オブジェクトの識別は静止画に限定されません。 また、映画やライブ録画でも正確かつ効率的に行うことができます。 今後、さらに多くの有用なオブジェクト検出アルゴリズムとライブラリが開発される可能性があります。


参加することを忘れないでください 私たちのRedditページ不協和音チャンネルでは、最新の AI 研究ニュース、クールな AI プロジェクトなどを共有しています。


Dhanshree Shenwai は、MarktechPost のコンサルティング コンテンツ ライターです。 彼女はコンピューター サイエンス エンジニアであり、大手グローバル銀行でデリバリー マネージャーとして働いています。 彼女は、AI のアプリケーションに強い関心を持ち、金融、カードと支払い、銀行のドメインをカバーするフィンテック企業での優れた経験を持っています。 彼女は、今日の進化する世界で新しいテクノロジーと進歩を探求することに熱心です。


Leave a Comment

Your email address will not be published. Required fields are marked *