Qwen: Новые модели для обработки речи, изображений и текста (1 фото + 1 видео)

23 сентября 2025 11:40

• Qwen3-TTS-Flash: Новый инструмент, превращающий текст в речь. Возможности включают 14 различных голосов и поддержку 10 языков, включая русский язык, с минимальной задержкой всего 97 мс.

• Qwen-Image-Edit-2509: Инновационная модель для редактирования и комбинирования изображений, способная сохранять контекст, лица и объекты на фотографиях. Также добавлена функция ControlNet для детального управления позами персонажей.
• Qwen3-Omni: Эта мультимодальная модель способна работать с текстом, изображениями, звуком и видео. Она поддерживает 119 языков, включая русский. Аудиофайлы длиной до 30 минут обрабатываются с задержкой в 211 мс. Модель завоевала первое место на 22 из 36 специализирующихся на оценке качества задач.
Все перечисленные модели доступны бесплатно, так что пробуйте и экспериментируйте!