残差接続とは
残差接続とは、ニューラルネットワークの途中の入力を後ろの層へ迂回させ、処理結果に足し戻す接続方法です。深層学習では、層を深くするほど情報が途中で弱くなったり、学習が不安定になったりします。残差接続は、元の情報をバイパスのように残すことで、深いモデルを学習しやすくする仕組みです。
残差接続の仕組み
通常の層は、入力を受け取り、変換した結果だけを次へ渡します。残差接続では、変換結果に元の入力も足して渡します。書類を部下に加工してもらうとき、加工版だけでなく元原稿も横に置いて確認できるようにする感覚です。元の情報を残しておくことで、後ろの層が「何を変えたか」を学びやすくなります。
ResNetとTransformerでの役割
残差接続は、画像認識のResNetで広く知られるようになりました。2015年のResNet論文はChatGPT登場より前の画像認識研究ですが、層がとても深いネットワークを学習しやすくする発想は現在のAIにも残っています。入力そのものではなく「入力からどれだけ変えるか」を学ぶ考え方です。その後、Transformerでも、アテンション機構やフィードフォワード処理の周囲に残差接続が置かれ、層正規化とセットで使われています。
ビジネスでの見方
残差接続は、AI製品の画面から見える機能ではありません。それでも、LLMが大きく深い構造を取れるようになった背景にある基礎部品です。モデルを「大きくすればよい」と単純に考えるのではなく、深くしても学習が壊れにくい設計が必要だと理解する手がかりになります。
Topic深くするほど悪くなる問題に、近道を作った
残差接続が面白いのは、「もっと深くすればもっと賢くなる」と単純にはいかなかった時代の解決策だったことです。ResNet論文は、深いニューラルネットワークほど訓練が難しくなる問題に対し、入力をそのまま迂回させる道を作りました。難しい変換を一から学ぶのではなく、元の入力からの差分を学ぶ。その発想が、現在のTransformerにも受け継がれています。
残差接続に関するよくある質問
- 残差接続は何のためにありますか?
- 深いニューラルネットワークで、情報や学習信号が途中で弱くなる問題を和らげるためです。元の入力を後ろへ迂回させることで、層を重ねても学習しやすくします。
- 残差接続とスキップ接続は同じですか?
- かなり近い意味で使われます。入力を途中の層を飛び越えて後ろへ渡す接続をスキップ接続と呼び、その代表的な使い方が残差接続です。
- 残差接続はTransformerにも使われていますか?
- 使われています。元のTransformer論文でも、各サブレイヤーの周囲に残差接続を置き、その後に層正規化を行う構成が説明されています。