In der heutigen Sendung tauchen wir ein in die faszinierende Welt der End-to-End multimodalen Modelle, die Text und Audio nahtlos verarbeiten.
Wir gehen auf Gazelle https://tincans.ai/slm3 ein SLM ein und sprechen über die Paper:
AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs https://arxiv.org/pdf/2311.06753.pdf
und SLM: Bridge the thin gap between speech and text foundation models https://arxiv.org/pdf/2310.00230.pdf