Kamera yang dapat memetakan dunia berguna untuk perangkat IoT generasi berikutnya.
Contents
Ikhtisar
Kebutuhan akan sistem visi komputer yang dapat memahami dan menganalisis adegan tiga dimensi akan tumbuh dengan cepat, didorong oleh kebutuhan mesin untuk berinteraksi dengan dunia 3D secara real time. Kendaraan otonom (Gbr. 1), augmented reality, mixed reality, dan pengenalan wajah hanyalah beberapa contoh model. Pada artikel ini, kita akan mempelajari berbagai jenis sistem kamera visi 3D yang menangkap data visual tiga dimensi untuk digunakan oleh algoritma visi komputer.
Jenis Kamera 3D Vision
Merekam adegan 3D memerlukan sistem kamera yang dapat mendeteksi kedalaman data dari setiap piksel gambar terkait, selain data tekstur (misalnya RGB). Kamera tersebut juga dikenal sebagai kamera jangkauan atau kedalaman. Ada banyak macam, masing-masing dengan kelebihan dan kekurangannya.
Kamera Stereo Pasif
Kamera stereo telah ada selama lebih dari 150 tahun [1]. Awalnya, mereka terutama digunakan untuk fotografi dan film untuk menyampaikan kedalaman adegan kepada pengamat manusia. Kamera stereo memiliki setidaknya dua titik fokus atau lebih. Mereka meniru penglihatan teropong orang.
Kisaran kedalaman bergantung pada jarak antar titik fokus (jarak interokular). Sekitar tahun 2010, keunggulan kamera stereo telah naik dan turun dengan pasar televisi/film 3D. Namun, perkembangan pesat pasar realitas yang dihasilkan komputer (VR) selama dua tahun terakhir mendorong kebutuhan akan konten yang jelas 360 derajat. Biaya kamera stereoskopis, seperti LucidCam, telah turun dengan cepat, sehingga lebih masuk akal bagi pasar massal untuk memproduksi konten 3D.
Selain pembuatan konten, kamera stereo dapat membuat peta kedalaman, melibatkan perbedaan area objek yang diperhatikan (divergensi) antara perspektif kamera kiri dan kanan untuk mengukur kedalaman benda dari pengamat (Gbr. 2). Untuk mencapai hal ini, algoritma visi komputer harus secara tepat mengenali titik pembanding dalam dua gambar yang terkait dengan fisik objek yang serupa. Ini adalah proses intensif komputasi.
Pemindai Deteksi dan Jangkauan Cahaya (LiDAR)/Waktu Penerbangan Berdenyut (ToF)
LiDAR menggunakan sensor dinamis, yang memancarkan energi untuk menerangi objek target. Mereka mengirim laser berdenyut, tak terlihat oleh mata alami, ke objek dan mendapatkan detak jantung yang dipantulkan. Kemudian, mereka menyimpulkan jarak menggunakan waktu kembali dan frekuensi laser. Dengan segera memeriksa area objektif (misalnya menggunakan cermin) titik demi titik dengan detak jantung laser, peta kedalaman pemandangan dapat ditentukan.
LiDAR dapat membuat peta kedalaman presisi tinggi dan resolusi tinggi. Sebelumnya, mereka terutama digunakan untuk aplikasi seperti pemetaan terestrial (berikut adalah beberapa aplikasi LiDAR lainnya). Penerimaan pasar massal LiDAR adalah dalam teknologi kendaraan otonom, yang membutuhkan pemetaan kedalaman yang cepat dan tepat di daerah sekitarnya.
Namun, sensor LiDAR biasanya lebih mahal dan besar(Gbr. 3). Perusahaan seperti Velodyne sedang berupaya menurunkan biaya untuk industri kendaraan otonom. Sensor LiDAR solid state generasi berikutnya sedang dikembangkan yang menjanjikan biaya lebih rendah dan kinerja yang lebih baik.
Kamera Continuous Wave Time of Flight (ToF).
Kamera LiDAR yang disebutkan di segmen sebelumnya terlalu mahal untuk pasar pembeli. Kamera Continuous Wave Time-of-Flight (ToF) adalahi jenis lain dari kamera rentang yang menerangi pemandangan penuh dengan cahaya termodulasi gelombang kontinu dan menerima cahaya yang dipantulkan menggunakan sensor CCD atau CMOS standar. Dengan mengukur pergeseran tahap gelombang cahaya yang didapat (Gbr. 4), jarak antara kamera dan permukaan pantulan dapat diturunkan.
Kamera ToF tidak memiliki bagian yang bergerak dan umumnya
bagian komponen semikonduktor yang relatif murahl. Namun, resolusi kamera ToF cenderung lebih rendah. Kamera penangkap gerakan Kinect V2 adalah salah satu aplikasi konsumen dari jenis kamera tersebut
Kamera Cahaya Terstruktur
Kamera cahaya terstruktur menggunakan metode stereovisi aktif yang berfungsi. Alih – Alih mengukur perbedaan antara pandangan dua kamera pengamat, perbedaan antara proyektor dan kamera yang pengamat diukur. Pola cahaya yang diketahui dalam inframerah (IR) diproyeksikan secara berurutan ke suatu objek. Pola – pola tersebut berubah bentuk oleh bentuk geometris objek.
Kamera IR kemudian, mengamati pola yang cacat pada arah yang berbeda. Dengan menganalisis distorsi pola yang diamati, misalnya perbedaan dari pola proyeksi asli, data kedalaman dapat diekstraksi. Kamera Kedalaman Asli Kinect V1 dan iPhone X (Gbr. 5a, Gbr. 5b) termasuk dalam kamera semacam ini.
Varian Lainnya
Masing-masing sistem kamera di atas memiliki kelebihan dan kekurangannya masing-masing.
Kekuatan | Kelemahan | Contoh Aplikasi | |
LiDAR (ToF Berdenyut) |
|
|
|
Stereo Pasif |
|
|
|
ToF Gelombang Kontinu |
|
|
|
Cahaya Terstruktur |
|
|
|
Jenis kamera yang lebih baru muncul di pasar yang menggabungkan teknologi di atas untuk mencapai kinerja yang lebih baik, biaya yang optimal, dan Aplikasi yang lebih luas. Misalnya, kamera Intel RealSense menggabungkan pemancar pola IR aktif dengan kamera stereo IR sehingga kamera kedalaman dapat berfungsi dengan baik dalam kondisi cahaya rendah.
Metode Monokular
Selain menggunakan kamera jarak jauh, kamera monokular konvensional dapat digunakan dalam kombinasi dengan strategi fotogrametri multi-tampilan untuk mencapai tangkapan gambar 3D dan pembuatan objek dan pemandangan.
Salah satu pendekatannya adalah Structure from Motion (SfM). Ini mirip dengan bagaimana manusia dan hewan mengamati struktur 3D lingkungan pada pose yang berbeda. Dengan bergerak di sekitar adegan/objek dan menangkap banyak gambar 2D dengan beberapa tampilan kamera, algoritme SfM dapat merekonstruksi representasi 3D detail dari adegan/objek tersebut.
Metode ini memiliki kebutuhan perhitungan yang tinggi. Selain itu, ini lebih cocok untuk Aplikasi dimana target yang diobservasi tidak bergerak, mirip dengan pemindaian 3D merchandise dengan dengan kamera ponsel konvensional.
Metode Visual Simultaneous Localization and Mapping (Visual SLAM), variasi realtime dari SfM, umumnya digunakan dalam teknologi robotika. Motivasi di balik Visual SLAM terutama untuk rute dan bukan untuk rendering 3D lingkungan.
Dengan menggunakan Visual SLAM, sebuah robot atau drone dapat dengan saksama menghubungkan gerakan, area, dan orientasinya dengan pengelompokan gambar yang ditangkap oleh kameranya untuk menghasilkan peta 3D dari lingkungan tempatnya berada. Hal ini memungkinkannya menavigasi ruang secara efektif dan efisien.
Ada sejumlah kamera yang makin berkembang yang dapat memetakan dunia, dan mengenali serta mengikuti objek dalam tiga dimensi. Elemen-elemen ini berguna untuk perangkat IoT yang akan datang untuk berkomunikasi dengan manusia secara lebih alami dan menangani Aplikasi yang kompleks.