Part Generator گوگل برای ایجاد تصاویر واقعی به 20 میلیارد ورودی متکی است

به گزارش سرویس اخبار فناوری رسانه رادیو فناوری ،

گوگل روز پنجشنبه از مدل کامپیوتری متن به تصویر Parti خود رونمایی کرد که با مطالعه ده ها میلیارد ورودی، تصاویر فراواقعی را ارائه می کند.

این غول جستجو در یک وب‌سایت تحقیقاتی گفت Pathways Autoregressive Text-to-Image یا Parti، مجموعه‌هایی از تصاویر را مطالعه می‌کند که گوگل آن‌ها را «نشان‌های تصویر» می‌نامد و از آنها برای ساخت تصاویر جدید استفاده می‌کند. تصاویر Parti زمانی واقعی‌تر می‌شوند که پارامترهای بیشتری – نشانه‌ها و سایر مواد آموزشی – برای مرور داشته باشد. این مدل قبل از ایجاد تصویر نهایی، 20 میلیارد پارامتر را مطالعه می کند.

Parti با Imagen، یک تولیدکننده متن به تصویر که گوگل برای استفاده از یادگیری انتشار طراحی کرده است، متفاوت است. این فرآیند با افزودن «نویز» به یک تصویر، مدل‌های رایانه‌ای را آموزش می‌دهد، به‌گونه‌ای که تصویری مانند حالت ثابت روی صفحه تلویزیون، مبهم باشد. سپس مدل یاد می‌گیرد که استاتیک را رمزگشایی کند تا تصویر اصلی را دوباره ایجاد کند. همانطور که مدل بهبود می یابد، می تواند چیزی را که به نظر می رسد یک سری از نقاط تصادفی به یک تصویر تبدیل شود.

گوگل Parti یا Imagen را برای عموم منتشر نمی کند زیرا مجموعه داده های هوش مصنوعی خطر سوگیری را به همراه دارد. از آنجایی که مجموعه داده ها توسط انسان ها ایجاد می شوند، می توانند ناخواسته به کلیشه ها متمایل شوند یا گروه های خاصی را نادرست معرفی کنند. گوگل می گوید که Parti و Imagen هر دو دارای تعصب نسبت به کلیشه های غربی هستند.

هنگامی که از گوگل خواسته شد در مورد این داستان نظر بدهد، گوگل به یک پست وبلاگ شرکت اشاره کرد.

این غول جستجو سرمایه گذاری زیادی روی هوش مصنوعی به عنوان راهی برای بهبود خدمات خود و توسعه محاسبات محیطی انجام داده است. در کنفرانس توسعه دهندگان I/O خود در ماه مه، ساندار پیچای، مدیر عامل شرکت، گفت که هوش مصنوعی برای کمک به Google Translate برای افزودن زبان‌ها، ایجاد تصاویر سه بعدی در Maps و متراکم کردن اسناد به صورت خلاصه استفاده می‌شود.

Parti و Imagen تنها مدل‌های تبدیل متن به تصویر در اطراف نیستند. مدل‌های Dall-E، VQ-GAN+CLIP و Latent Diffusion دیگر مدل‌های متن به تصویر غیر گوگل هستند که اخیراً خبرساز شده‌اند. Dall-E Mini یک هوش مصنوعی متن به تصویر متن باز است که در دسترس عموم است، اما بر روی مجموعه داده های کوچکتر آموزش دیده است.

این مطلب از رسانه های بین المللی معتبر جمع آوری بطور خودکار شده و رسانه رادیو فناوری نقشی در تهیه و تالیف انها ندارد. رادیو فناوری تابع مقررات و آرمانهای جمهوری اسلامی ایران است بنابراین اگر این مطلب نیاز به حذف و یا ویرایش دارد به ما اطلاع دهید.

درباره ی rf_admin

مطلب پیشنهادی

WWE Money in the Bank 2022: Start Times, How to Watch, Match Card and Peacock

به گزارش سرویس اخبار فناوری رسانه رادیو فناوری ، آخرین پرداخت به ازای هر ویو …