Bagaimanakah mekanisme perhatian diri dalam kerja pengubah?

Hei ada! Saya pembekal Transformers, dan hari ini saya akan bercakap tentang bagaimana mekanisme perhatian diri dalam kerja pengubah. Ia mungkin terdengar sedikit teknikal, tetapi saya akan memecahkannya dengan cara yang mudah difahami.

Mari kita mulakan dengan asas -asas. Transformer adalah sejenis seni bina rangkaian saraf yang telah merevolusikan bidang pemprosesan bahasa semulajadi (NLP) dan kawasan lain. Mekanisme perhatian diri adalah salah satu komponen utama yang menjadikan transformer begitu kuat.

Apa itu diri - perhatian?

Diri - Perhatian adalah cara untuk model untuk menimbang kepentingan bahagian -bahagian yang berlainan dari urutan input apabila memprosesnya. Secara ringkas, ia membantu model fokus pada bahagian input yang berkaitan. Bayangkan anda membaca artikel panjang. Anda tidak membaca setiap perkataan dengan tahap perhatian yang sama. Anda mungkin memberi perhatian lebih kepada ayat, tajuk, dan butiran yang berkaitan. Itulah yang betul - perhatian diri untuk model pengubah.

Bagaimanakah ia berfungsi dengan langkah demi langkah?

1. Pertanyaan, kunci, dan vektor nilai

Langkah pertama dalam mekanisme perhatian diri adalah untuk membuat tiga jenis vektor untuk setiap elemen dalam urutan input: pertanyaan (q), kunci (k), dan nilai (v) vektor. Vektor ini dicipta dengan mendarabkan embeddings input oleh tiga matriks berat yang berbeza.

Katakan kita mempunyai urutan input perkataan, dan setiap perkataan diwakili sebagai vektor. Kami melipatgandakan vektor input ini dengan matriks berat (W_Q), (W_K), dan (W_V) untuk mendapatkan pertanyaan, kunci, dan nilai vektor masing -masing.

[Q = XW_Q]
[K = xw_k]
[V = xw_v]

Di sini, (x) adalah matriks embeddings input.

2. Mengira skor perhatian

Seterusnya, kami mengira skor perhatian. Kami melakukan ini dengan mengambil produk titik vektor pertanyaan dengan vektor utama. Produk DOT mengukur persamaan antara pertanyaan dan kunci.

Untuk setiap vektor pertanyaan (q_i) dalam urutan, kami mengira skor perhatian (a_ {i, j}) dengan semua vektor utama (k_j) dalam urutan.

[a_ {i, j} = q_i \ cdot k_j]

Skor ini memberitahu kami berapa banyak elemen (i) dalam urutan harus memberi perhatian kepada elemen (j) - th.

3. Skala dan softmax

Skor perhatian kemudiannya ditingkatkan dengan membahagikannya dengan akar kuadrat dimensi vektor utama ((\ sqrt {d_k})). Penskalaan ini membantu menghalang produk DOT daripada menjadi terlalu besar, yang boleh menyebabkan kecerunan tidak stabil semasa latihan.

[a_ {i, j}^{scaled} = \ frac {a_ {i, j}} {\ sqrt {d_k}}]

Selepas berskala, kami menggunakan fungsi SoftMax ke skor skala. Fungsi SoftMax menukarkan skor ke dalam kebarangkalian, sehingga mereka menyimpulkan sehingga 1.

[\ alpha_ {i, j} = \ frac {\ exp (a_ {i, j}^{scaled})} {\ sum_ {k = 1}^{n} \ exp (a_ {i, k}^{berskala}}]

Di sini, (\ alpha_ {i, j}) adalah berat perhatian, yang mewakili kepentingan elemen (j) - ke elemen (i) - tH.

pole-mounted-transformer (2) 400kva dry transformer

4. Jumlah nilai berwajaran

Akhirnya, kami mengira output mekanisme perhatian diri dengan mengambil jumlah wajaran vektor nilai. Kami melipatgandakan setiap vektor nilai (v_j) dengan berat perhatian yang sepadan (\ alpha_ {i, j}) dan jumlahnya untuk semua (j).

[o_i = \ sum_ {j = 1}^{n} \ alpha_ {i, j} v_j]

Vektor output (O_I) adalah output mekanisme perhatian diri untuk setiap elemen dalam urutan input.

Mengapa diri - perhatian penting?

Mekanisme perhatian diri mempunyai beberapa kelebihan. Pertama, ia membolehkan model untuk menangkap ketergantungan jarak jauh dalam urutan input. Dalam seni bina rangkaian neural tradisional seperti rangkaian saraf berulang (RNNs), sukar untuk menangkap kebergantungan antara unsur -unsur yang jauh di dalam urutan. Diri - Perhatian dapat dengan mudah mengendalikan kebergantungan jangka panjang seperti itu dapat mengira hubungan antara dua elemen dalam urutan.

Kedua, perhatian diri adalah selaras. Tidak seperti RNN, yang memproses urutan input secara berurutan, perhatian diri dapat memproses semua elemen dalam urutan secara serentak. Ini menjadikan latihan dan kesimpulan lebih cepat, terutamanya untuk urutan yang panjang.

Aplikasi transformer dan perhatian diri

Transformer dengan mekanisme perhatian diri telah digunakan dalam pelbagai aplikasi. Di NLP, ia digunakan untuk tugas -tugas seperti terjemahan mesin, penjanaan teks, sistem soalan, dan analisis sentimen. Sebagai contoh, model seperti Bert dan GPT didasarkan pada seni bina pengubah.

Dalam visi komputer, perhatian diri juga telah digunakan. Ia boleh digunakan untuk menganalisis imej, mengesan objek, dan menjana kapsyen untuk imej.

Produk Transformer kami

Sebagai pembekal pengubah, kami menawarkan pelbagai transformer berkualiti tinggi. Contohnya, kami mempunyai167 KVA Transformer Pole Telefon, yang sesuai untuk aplikasi luaran dan boleh menyediakan bekalan kuasa yang boleh dipercayai. KamiMinyak tenggelam pengubah kerugian rendahdireka untuk mengurangkan kehilangan tenaga dan mempunyai hayat perkhidmatan yang panjang. Dan jika anda memerlukan pengubah kering, kami400 kva pengubah keringadalah pilihan yang hebat, dengan ciri -ciri prestasi dan keselamatan yang sangat baik.

Jika anda berminat dengan produk kami atau mempunyai sebarang soalan mengenai Transformers, jangan ragu untuk menghubungi kami untuk rundingan pembelian. Kami berada di sini untuk memberi anda penyelesaian terbaik untuk keperluan kuasa anda.

Rujukan

Vaswani, A., Shazer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, An, ... & Polosukhin, I. (2017). Perhatian adalah semua yang anda perlukan. Kemajuan dalam sistem pemprosesan maklumat saraf.
Devlin, J., Chang, MW, Lee, K., & Toutanova, K. (2018). Bert: Pra - Latihan Transformer Bidirectional Deep untuk Pemahaman Bahasa. Arxiv Preprint Arxiv: 1810.04805.
Radford, A., Wu, J., Anak, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Model bahasa adalah pelajar multitask tanpa pengawasan. Openai Blog, 1 (8), 9.