Может разнести эти две конструкции в две разные темы? ESP8266 и ESP32 (название какое-то хитрое у чипа) - две большие разницы, как говорят в Одессе.
Если PCM5102 - дорого (150 рублей на Али) ну воткните TLV320AIC23 за 50... Есть же I2S в чипе и так. Пихать аппаратный декодер звука в двухядерный проц 240 МГц считаю извращением.
Кстати, есть проект интернет-радио на сайте espressif, подозреваю, откуда уши и растут
Что касается разрывов потока - вы теги и картинки в нём парсите? Там может быть не только звук