Algoritma pengambilan multi-vektor baru milik Google (MUVERA) meningkatkan kecepatan pencarian dan berkinerja lebih baik pada kueri yang kompleks.

Google mengumumkan algoritma pencarian multi-vektor baru yang disebut MUVERA yang mempercepat pencarian dan pemeringkatan, serta meningkatkan akurasi. Algoritma ini dapat digunakan untuk pencarian, sistem rekomendasi (seperti YouTube), dan untuk pemrosesan bahasa alami (NLP).
Walaupun pengumuman tersebut tidak secara eksplisit mengatakan bahwa itu digunakan dalam pencarian, makalah penelitian memperjelas bahwa MUVERA memungkinkan pengambilan multi-vektor yang efisien pada skala web, terutama dengan membuatnya kompatibel dengan infrastruktur yang ada (melalui MIPS) dan mengurangi latensi dan jejak memori.
Penyematan Vektor Dalam Pencarian
Penanaman vektor adalah representasi multidimensi dari hubungan antara kata, topik, dan frasa. Hal ini memungkinkan mesin untuk memahami kesamaan melalui pola seperti kata yang muncul dalam konteks yang sama atau frasa yang memiliki makna yang sama. Kata dan frasa yang terkait menempati ruang yang lebih dekat satu sama lain.
- Kata-kata “King Lear” akan dekat dengan frasa “tragedi Shakespeare.”
- Kata-kata “A Midsummer Night’s Dream” akan menempati ruang yang dekat dengan “komedi Shakespeare.”
- Baik “King Lear” dan “A Midsummer Night’s Dream” akan berlokasi di dekat Shakespeare.
Jarak antara kata, frasa, dan konsep (secara teknis merupakan ukuran kesamaan matematis) menentukan seberapa dekat hubungan masing-masing. Pola ini memungkinkan mesin untuk menyimpulkan kesamaan di antara mereka.
MUVERA Memecahkan Masalah Inheren Penanaman Multi-Vektor
Makalah penelitian MUVERA menyatakan bahwa penanaman saraf telah menjadi fitur pencarian informasi selama sepuluh tahun dan mengutip makalah penelitian model multi-vektor ColBERT dari tahun 2020 sebagai terobosan tetapi menyatakan bahwa model tersebut mengalami hambatan yang membuatnya kurang ideal.
“Baru-baru ini, dimulai dengan makalah ColBERT yang penting, model multivektor, yang menghasilkan serangkaian penyematan per titik data, telah mencapai kinerja yang jauh lebih unggul untuk tugas IR. Sayangnya, penggunaan model ini untuk IR membutuhkan komputasi yang mahal karena meningkatnya kompleksitas pengambilan dan penilaian multivektor.”
Pengumuman Google tentang MUVERA menggemakan sisi buruk tersebut:
“… kemajuan terkini, khususnya pengenalan model multi-vektor seperti ColBERT, telah menunjukkan peningkatan kinerja yang signifikan dalam tugas-tugas IR. Sementara pendekatan multi-vektor ini meningkatkan akurasi dan memungkinkan pengambilan dokumen yang lebih relevan, pendekatan ini menghadirkan tantangan komputasi yang substansial. Secara khusus, peningkatan jumlah penyisipan dan kompleksitas penilaian kesamaan multi-vektor membuat pengambilan dokumen menjadi jauh lebih mahal.”
Mungkinkah Menjadi Penerus Teknologi RankEmbed Google?
Gugatan antimonopoli Departemen Kehakiman Amerika Serikat (DOJ) menghasilkan kesaksian yang mengungkapkan bahwa salah satu sinyal yang digunakan untuk membuat halaman hasil mesin pencari (SERP) disebut RankEmbed, yang dijelaskan seperti ini:
“RankEmbed adalah model enkoder ganda yang menanamkan kueri dan dokumen ke dalam ruang penanaman. Ruang penanaman mempertimbangkan properti semantik kueri dan dokumen selain sinyal lainnya. Pengambilan dan pemeringkatan kemudian menjadi produk titik (ukuran jarak dalam ruang penanaman)… Sangat cepat; berkualitas tinggi pada kueri umum tetapi dapat berkinerja buruk untuk kueri ekor…”
MUVERA adalah kemajuan teknis yang mengatasi keterbatasan kinerja dan skalabilitas pada sistem multi-vektor, yang sendiri merupakan satu langkah lebih maju dari model enkoder ganda (seperti RankEmbed), yang menyediakan kedalaman semantik yang lebih baik dan penanganan kinerja kueri ekor.
Terobosan ini adalah teknik yang disebut Fixed Dimensional Encoding (FDE), yang membagi ruang penyisipan menjadi beberapa bagian dan menggabungkan vektor yang termasuk dalam setiap bagian untuk membuat satu vektor dengan panjang tetap, sehingga pencarian lebih cepat daripada membandingkan beberapa vektor. Hal ini memungkinkan model multi-vektor digunakan secara efisien dalam skala besar, meningkatkan kecepatan pengambilan tanpa mengorbankan akurasi yang berasal dari representasi semantik yang lebih kaya.
Menurut pengumuman:
“Tidak seperti penyematan vektor tunggal, model multi-vektor merepresentasikan setiap titik data dengan serangkaian penyematan, dan memanfaatkan fungsi kesamaan yang lebih canggih yang dapat menangkap hubungan yang lebih kaya antara titik data.
Meskipun pendekatan multivektor ini meningkatkan akurasi dan memungkinkan pengambilan dokumen yang lebih relevan, pendekatan ini menghadirkan tantangan komputasi yang substansial. Secara khusus, peningkatan jumlah penyisipan dan kompleksitas penilaian kesamaan multivektor membuat pengambilan dokumen menjadi jauh lebih mahal.
Dalam ‘MUVERA: Pengambilan Multi-Vektor melalui Pengodean Dimensi Tetap’, kami memperkenalkan algoritma pengambilan multi-vektor baru yang dirancang untuk menjembatani kesenjangan efisiensi antara pengambilan vektor tunggal dan multi-vektor.
…Pendekatan baru ini memungkinkan kami untuk memanfaatkan algoritma MIPS yang sangat optimal untuk mengambil serangkaian kandidat awal yang kemudian dapat diperingkat ulang dengan kesamaan multi-vektor yang tepat, sehingga memungkinkan pengambilan multi-vektor yang efisien tanpa mengorbankan akurasi.”
Model multi-vektor dapat memberikan jawaban yang lebih akurat daripada model dual-encoder, tetapi akurasi ini mengorbankan tuntutan komputasi yang intensif. MUVERA memecahkan masalah kompleksitas model multi-vektor, sehingga menciptakan cara untuk mencapai akurasi yang lebih tinggi dari pendekatan multi-vektor tanpa tuntutan komputasi yang tinggi.
Apa Artinya Ini Bagi SEO?
MUVERA menunjukkan bagaimana peringkat pencarian modern semakin bergantung pada penilaian kesamaan daripada sinyal kata kunci kuno yang sering menjadi fokus alat SEO dan SEO. SEO dan penerbit mungkin ingin mengalihkan perhatian mereka dari pencocokan frasa yang tepat ke arah penyelarasan dengan konteks dan maksud keseluruhan kueri. Misalnya, ketika seseorang mencari “jaket korduroi pria ukuran sedang”, sistem yang menggunakan pengambilan seperti MUVERA lebih cenderung memberi peringkat pada halaman yang benar-benar menawarkan produk tersebut, bukan halaman yang hanya menyebutkan “jaket korduroi” dan menyertakan kata “sedang” dalam upaya untuk mencocokkan kueri.