Default Title
logo spatial highlights
Microsoft Perkenalkan MindJourney untuk Melatih Pemahaman Spasial AI

Microsoft Perkenalkan MindJourney untuk Melatih Pemahaman Spasial AI

Para peneliti di Microsoft memperkenalkan MindJourney, sebuah kerangka kerja inovatif yang dirancang untuk membantu agen kecerdasan buatan (AI) mengeksplorasi lingkungan 3D simulatif. Melalui MindJourney, AI dapat meningkatkan kemampuan penalaran spasial mereka.

Selama ini, vision–language models atau VLM tradisional lebih unggul dalam memahami gambar 2D statis. Namun, model tersebut sering gagal ketika menghadapi pertanyaan yang memerlukan orientasi ruang. Contohnya, jika saya duduk di sofa menghadap kursi, apakah dapur berada di sebelah kanan atau kiri?

MindJourney hadir untuk menjembatani keterbatasan itu. Sistem ini memungkinkan AI membangun pandangan hipotesis terhadap suatu adegan, misalnya dengan membayangkan berjalan ke depan atau berbelok, melalui world model yang dilatih untuk memprediksi perubahan tampilan lingkungan ketika terjadi pergerakan.

Untuk menjalankan navigasi spasial, MindJourney menggunakan world model berupa sistem pembangkitan video yang terlatih pada kumpulan besar video dari sudut pandang kamera bergerak tunggal. Video tersebut menampilkan aksi sederhana, seperti berjalan maju atau berbelok ke kiri/kanan. Video tersebut mirip cara seorang juru kamera sinematik 3D merekam perubahan sudut pandang. Dari proses ini, AI belajar memperkirakan bagaimana sebuah adegan akan terlihat dari perspektif yang berbeda.

Saat proses inferensi, MindJourney dapat menghasilkan citra fotorealistik dari suatu adegan berdasarkan kemungkinan pergerakan agen dari posisi awalnya. Sistem kemudian membuat banyak sudut pandang alternatif. VLM bertindak sebagai filter yang memilih perspektif paling relevan untuk menjawab pertanyaan spasial. Pandangan yang dipilih akan dipertahankan dan dikembangkan pada iterasi berikutnya, sementara jalur yang kurang menjanjikan dieliminasi.

Proses ini didukung oleh mekanisme spatial beam search, sebuah algoritma pencarian yang secara cerdas memprioritaskan jalur paling potensial. Setiap langkah dalam beam search merepresentasikan satu gerakan, seperti maju atau belok. Dengan menyeimbangkan eksplorasi luas (breadth) dan kedalaman (depth), MindJourney dapat mengumpulkan bukti spasial yang kuat tanpa harus menghasilkan dan mengevaluasi ribuan kemungkinan jalur pergerakan.

Pendekatan yang menggabungkan simulasi, evaluasi, dan integrasi ini memungkinkan MindJourney melakukan penalaran spasial jauh melampaui batasan sebuah gambar 2D. Menariknya, semua ini dapat dicapai tanpa memerlukan pelatihan tambahan. Hasil pengujian pada benchmark Spatial Aptitude Training (SAT) menunjukkan bahwa MindJourney berhasil meningkatkan akurasi VLM sebesar 8% dibanding performa dasarnya.

+
+