GROWI

{{pagename}} - {{sitename}}

Toshio Mori

# PositionwiseFeedForward
OpenNMT-py/onmt/modules/position_ffn.py  

[深層学習界の大前提Transformerの論文解説！](https://qiita.com/omiita/items/07e69aef6c156d23c538#133-position-wise-%E9%A0%86%E4%BC%9D%E6%92%AD%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF)の[1.3.3 Position-wise 順伝播ネットワーク](https://qiita.com/omiita/items/07e69aef6c156d23c538#133-position-wise-%E9%A0%86%E4%BC%9D%E6%92%AD%E3%83%8D%E3%83%83%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF)
より引用

> 各ブロックのAttention層のあとに入っているPosition-wise 順伝播ネットワーク。
> Position-wiseというのはただ単に、各単語ごとに独立してニューラルネットワークがあるということ(ただし、重みは共有)。 ニューラルネットワーク内では他単語との干渉はない。2層のニューラルネットワークになっている。

- d_model: モデルの次元数
- d_ff: ニューラルネットワークの階層数

```python
class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)
        self.dropout_1 = nn.Dropout(dropout)
        self.relu = nn.ReLU()
        self.dropout_2 = nn.Dropout(dropout)

    def forward(self, x):
        inter = self.dropout_1(self.relu(self.w_1(self.layer_norm(x))))
        output = self.dropout_2(self.w_2(inter))
        return output + x
```

## [Position-wise Feedforward Network](https://qiita.com/halhorn/items/c91497522be27bde17ce#position-wise-feedforward-network)

[作って理解する Transformer / Attention](https://qiita.com/halhorn/items/c91497522be27bde17ce)から引用。

![Position-wise Feedforward Network](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F61079%2F857e5001-e3eb-4c62-6e8a-99ca55113411.png?ixlib=rb-1.2.2&auto=format&gif-q=60&q=75&s=8d2742dcfa9516b41b62f893f1eb222e)

各 Hopping の Attention のあとには FFN をはさむ。  


PositionwiseFeedForward

PositionwiseFeedForward

Position-wise Feedforward Network external_link