Chihuahua ya muffin? Ən yaxşı kompüter görkəmi API üçün axtarışım

Bu populyar internet memu, chihuahuas və kekler arasında paylaşılan narahatlıq bənzərliyini nümayiş etdirir. Bu görüntülər ümumiyyətlə Süni İntellekt (AI) sənayesində (özüm daxil olmaqla) təqdimatlarda paylaşılır.

Ancaq heç kimin cavabını görmədim bir sual, chihuahua ya da bir muffinə bənzər bir görünüşün qeyri-müəyyənliyini aradan qaldırmaq üçün müasir AI nə qədər yaxşıdır? Əyləncə və təhsiliniz üçün bu gün bu sualı araşdıracağam.

İkili təsnifat, qavrayış alqoritmi 1957-ci ildə icad edildiyi vaxtdan bəri mümkündür. İndi Aİ'nin hipeden olduğunu düşünürsünüzsə, New York Times 1958-ci ildə ixtiranın "gəzə, danışa, görə biləcəyiniz" bir kompüterin başlanğıcı olduğunu söylədi. yaz, özünü böyüd və varlığını dərk et. ” Mark 1-də olduğu kimi qavrayış maşınları görüntü tanınması üçün hazırlanmış olsa da, əslində onlar yalnız xətti olaraq ayrıla bilən nümunələri aşkar edə bilirlər. Bu, əksər vizual mediada tapılan mürəkkəb nümunələri öyrənmələrinə mane olur.

Təəccüblü deyil ki, dünya məyus oldu və bir AI qışı meydana gəldi. O vaxtdan bəri, çox qatlı qavrayış (1980-ci illərdə məşhurdur) və konvolyusional sinir şəbəkələri (1998-ci ildə Yann LeCun tərəfindən qurulmuşdur), şəkil tanıma vəzifələrində tək qatlı qavrayışları çox üstün etdi.

ImageNet və güclü GPU hesablama kimi böyük etiketli məlumat dəstləri ilə AlexNet, VGG, Inception və ResNet kimi daha inkişaf etmiş neyron şəbəkə arxitekturaları kompüter görmə qabiliyyətində ən müasir performans əldə etdi.

Kompüter görmə və görüntü tanıma API

Bir maşın öyrənmə mühəndisisinizsə, Keras / Tensorflow və ya PyTorch-da əvvəlcədən hazırlanmış modellər və çəkilərdən istifadə edərək bu modelləri sınamaq və düzəltmək asandır. Özünüzdə neyron şəbəkələri çarpdırmaq üçün rahat deyilsinizsə, şansınız var. Demək olar ki, bütün aparıcı texnologiya nəhəngləri və perspektivli startaplar istifadə üçün asan kompüter görmə API-lərini təklif etməklə "Aİ-ni demokratikləşdirmək" üçün iddia edirlər.

Hansı ən yaxşısıdır? Bu suala cavab vermək üçün həll yollarını bir-birinizlə müqayisə etməzdən əvvəl iş məqsədlərinizi, məhsul istifadəsi hallarını, test məlumat dəstlərini və uğur ölçümlərini dəqiq müəyyənləşdirməlisiniz.

Ciddi bir araşdırma əvəzinə, ən azı hər platformanın fərqli davranışlarını yüksək səviyyəli bir hissi, bir muffindən bir chihuahua'yı fərqləndirmə oyuncaq problemi ilə sınamaqla əldə edə bilərik.

Testin aparılması

Bunun üçün kanonik memeni 16 test görüntüsünə ayırdım. Sonra fərqli API-lərin nəticələrini birləşdirmək üçün mühəndis Gaurav Oberoi tərəfindən yazılmış açıq mənbə kodu istifadə edirəm. Hər bir şəkil yuxarıda sadalanan altı API-dən keçir, bu da proqnozları olaraq yüksək etimad etiketlərini qaytarır. İstisnalar həm etiketləri, həm də başlığı qaytaran Microsoft və yalnız bir başlığı qaytarmaq üçün insan-AI hibrid texnologiyasından istifadə edən Cloudsight-dır. Buna görə Cloudsight mürəkkəb görüntülər üçün dəqiq bir yazını geri qaytara bilər, lakin işlənməyə 10-20 dəfə çox vaxt tələb edir.

Aşağıda çıxış nümunəsidir. Bütün 16 chihuahua və muffin şəkillərinin nəticələrini görmək üçün buraya vurun.

APIlər nə dərəcədə yaxşı idi? Bu kababı doldurulmuş bir heyvan üçün qarışdıran Microsoft-dan başqa, hər digər API görüntünün qida olduğunu qəbul etdi. Ancaq yeməyin çörək, tort, peçenye və ya muffin olub-olmadığı barədə razılığa gəlinmədi. Muffini müvəffəqiyyətlə ən çox ehtimal olunan etiket olaraq eyniləşdirən yeganə API idi.

Bir chihuahua nümunəsinə baxaq.

Yenə də, API'lər çox yaxşı etdi. Hamısı görüntünün bir it olduğunu başa düşdü, baxmayaraq ki, onlardan bir neçəsi dəqiq cinsi əldən verdi.

Buna baxmayaraq müəyyən uğursuzluqlar oldu. Microsoft, muffini ya doldurulmuş bir heyvan və ya bir ayı kimi təsvir edərək üç dəfə ayrıca səhv bir başlığı qaytardı.

Google, test dəstindəki 7 muffin görüntüsünün 6-sı üçün ən yüksək etimad etiketi olaraq "muffin" ini qaytaran ən son muffin identifikatoru idi. Digər API-lər hər hansı bir muffin şəkli üçün ilk etiket kimi "muffin" -i geri qaytarmadılar, əksinə "çörək", "peçenye" ​​və ya "cupcake" kimi daha az etiketləri geri qaytardılar.

Bununla yanaşı, uğurlarına baxmayaraq, Google bu xüsusi muffin görüntüsündə uğursuzluğa düçar oldu.

Hətta dünyanın ən qabaqcıl maşın öyrənmə platformaları da muffin çağırışına qarşı həssas chihuahua ilə yollanır. Bir insan toddler nə olduğunu və Fidonun nə olduğunu öyrənmək üçün dərindən öyrənir.

Beləliklə, hansı kompüter görmə API ən yaxşısıdır?

Bu çətin sirrin cavabını tapmaq üçün orijinal məqaləni tam oxumaq üçün TOPBOTS-a keçməlisiniz!