چرا DeepSeek دنیای هوش مصنوعی را شوکه کرده است؟
طی چند روز گذشته یک مدل هوش مصنوعی از کشور چین به نام DeepSeek سروصدای زیادی به راهانداخته و حتی بازار بورس دنیا را تکان داده است.
برای مثال، سهام شرکت انویدیا نزدیک به ۶۰۰ میلیارد دلار اُفت کرده که بزرگترین سقوط آزاد در تاریخ بورس جهان به شمار میآید! (هرچند تا اینجا حدود ۲۶۰ میلیارد از سقوط اولیه دوباره بازگشته است).
اما مگر دیپ سیک (DeepSeek) با مدلهای زبانی جدیدش چه کرده که چنین موجی به راه افتاده؟ جالب است بدناید که این شرکت تازه حدود یک سال قبل تاسیس شده است!
اینجا سعی میکنیم به طور خلاصه و به زبان ساده موضوع را شرح دهیم و برای این کار از توضیحات آقای مورگان براون (مدیر هوش مصنوعی شرکت دراپ باکس) کمک میگیریم:
در حال حاضر آموزش (train) مدلهای هوش مصنوعی بسیار پرهزینه است. مثلا شرکتهایی مانند OpenAI صدها میلیون دلار صرف دیتاسنترها و زیرساختهای سختافزاری میکنند. در هر کدام از این دیتاسنترها هزاران پردازشگر گرانقیمت (ساخت شرکت انویدیا) قرار دارد.
اما شرکت دیپ سیک ناگهان از راه رسید و بازی را عوض کرد: آنها نشان دادند که میتوان یک کار ۱۰۰ میلیون دلاری را با ۵ میلیون دلار انجام داد و به نتیجهای بسیار نزدیک دست یافت.
مدل ارائه شدهی آنها در بسیاری از کارها از GPT-4 و Claude بهتر عمل کرده و این دنیای هوش مصنوعی را تکان داده است.
آنها در فرایند تولید مدل جدید، همه چیز را از زاویهی متفاوتی نسبت به روشهای فعلی دیدهاند:
مدل آنها ۷۵ درصد حافظهی کمتری مصرف میکند و از سیستمی به نام multi-token استفاده میکند.
مدلهای فعلی مانند بچهی کلاس اولی کار میکند و کلمه به کلمه میخواند. اما دیپ سیک عبارات طولانیتر و جملات را میبینید و به همین خاطر دوبرابر سریعتر است و با این حال به اندازه ۹۰ درصد هم دقت دارد.
دیپ سیک یک کار هوشمندانهی دیگر هم انجام داده: مدلهای فعلی همه کاره هستند و میتوانند همزمان در نقش پزشک، معمار و برنامه نویس عمل کنند. به همین خاطر مثلا ۱.۸ تریلیون پارامتر همزمان فعال هستند.
اما دیپ سیک وظایف تخصصی را از هم جدا کرده و فقط هنگام نیاز از آنها استفاده میکند.
نتیجه این شده که هزینه آموزش مدل از ۱۰۰ میلیون دلار به ۵ میلیون رسیده. تعداد پردازشگرهای مورد نیاز از ۱۰۰ هزار به ۲ هزار رسیده و هزینه API هم حدود ۹۵ درصد ارزانتر شده است.
مدل جدید خبر خوبی برای شرکت انویدیا نیست، چون رشد فوق العادهی این شرکت مرهون نیاز مدلهای هوش مصنوعی به پردازشگرهای متعدد و گران است.
دیپ سیک طراحی مدل جدید را با یک تیم کوچک ۲۰۰ نفره انجام داده، در حالی که در شرکتهای بزرگ «سیلیکون ولی» تیمهای بزرگی روی مدلها کار میکنند.
جالب است بدانید که طی همین چند روزی که از ارائه دیپ سیک گذشته، اپلیکیشن آن در اپ استور در قسمت اپلیکیشنهای رایگان به رتبه اول ارتقا پیدا کرده و چت جیپی تی و گوگل جمنای در جایگاه دوم و سوم قرار گرفتهاند!
البته پشت سر این شرکت حرفهایی هم زده میشود. برای مثال برخی کارشناسان میگویند که هزینه آموزش مدل این شرکت خیلی بیشتر از ۵ میلیون دلار ادعا شده است.
اما با وجود همه این حرفها، دیپ سیک بازی را عوض کرده و رقابت بسیار جدیتر شده و البته نتیجهی آن به نفع مصرفکنندگان خواهد بود.
چون قاعدتا بازیگران بزرگ هوش مصنوعی هم از نوآوریهای دیپ سیک استفاده خواهند کرد. مهمترین لطف دیپ سیک هم این بوده که مدلش را به صورت بازمتن ارائه کرده است.