doxygen/daemon/audio__processor_8h_source.html

/*

 *  Copyright (C) 2004-2025 Savoir-faire Linux Inc.

 *

 *  This program is free software: you can redistribute it and/or modify

 *  it under the terms of the GNU General Public License as published by

 *  the Free Software Foundation, either version 3 of the License, or

 *  (at your option) any later version.

 *

 *  This program is distributed in the hope that it will be useful,

 *  but WITHOUT ANY WARRANTY; without even the implied warranty of

 *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the

 *  GNU General Public License for more details.

 *

 *  You should have received a copy of the GNU General Public License

 *  along with this program. If not, see <https://www.gnu.org/licenses/>.

 */

#pragma once


#include "noncopyable.h"

#include "media/audio/audio_frame_resizer.h"

#include "media/audio/resampler.h"

#include "media/audio/audio_format.h"

#include "media/libav_deps.h"

#include "logger.h"


#include <atomic>

#include <memory>


namespace jami {


class AudioProcessor

{

private:

    NON_COPYABLE(AudioProcessor);


public:


    AudioProcessor(AudioFormat format, unsigned frameSize)

        : playbackQueue_(format, (int) frameSize)

        , recordQueue_(format, (int) frameSize)

        , resampler_(new Resampler)

        , format_(format)

        , frameSize_(frameSize)

        , frameDurationMs_((unsigned int) (frameSize_ * (1.0 / format_.sample_rate) * 1000))

    {}


    virtual ~AudioProcessor() = default;


    virtual void putRecorded(std::shared_ptr<AudioFrame>&& buf)

    {

        recordStarted_ = true;

        if (!playbackStarted_)

            return;

        enqueue(recordQueue_, std::move(buf));

    };


    virtual void putPlayback(const std::shared_ptr<AudioFrame>& buf)

    {

        playbackStarted_ = true;

        if (!recordStarted_)

            return;

        auto copy = buf;

        enqueue(playbackQueue_, std::move(copy));

    };


    virtual std::shared_ptr<AudioFrame> getProcessed() = 0;


    virtual void enableEchoCancel(bool enabled) = 0;


    virtual void enableNoiseSuppression(bool enabled) = 0;


    virtual void enableAutomaticGainControl(bool enabled) = 0;


    virtual void enableVoiceActivityDetection(bool enabled) = 0;


protected:

    AudioFrameResizer playbackQueue_;

    AudioFrameResizer recordQueue_;

    std::unique_ptr<Resampler> resampler_;

    std::atomic_bool playbackStarted_;

    std::atomic_bool recordStarted_;

    AudioFormat format_;

    unsigned int frameSize_;

    unsigned int frameDurationMs_;


    // artificially extend voice activity by this long

    unsigned int forceMinimumVoiceActivityMs {1000};


    // current number of frames to force the voice activity to be true

    unsigned int forceVoiceActiveFramesLeft {0};


    // voice activity must be active for this long _before_ it is considered legitimate

    unsigned int minimumConsequtiveDurationMs {200};


    // current number of frames that the voice activity has been true

    unsigned int consecutiveActiveFrames {0};


    bool tidyQueues()

    {

        auto recordFrameSize = recordQueue_.frameSize();

        auto playbackFrameSize = playbackQueue_.frameSize();

        while (recordQueue_.samples() > recordFrameSize * 10

            && 2 * playbackQueue_.samples() * recordFrameSize < recordQueue_.samples() * playbackFrameSize) {

            JAMI_LOG("record overflow {:d} / {:d} - playback: {:d}", recordQueue_.samples(), frameSize_, playbackQueue_.samples());

            recordQueue_.dequeue();

        }

        while (playbackQueue_.samples() > playbackFrameSize * 10

            && 2 * recordQueue_.samples() * playbackFrameSize < playbackQueue_.samples() * recordFrameSize) {

            JAMI_LOG("playback overflow {:d} / {:d} - record: {:d}", playbackQueue_.samples(), frameSize_, recordQueue_.samples());

            playbackQueue_.dequeue();

        }

        if (recordQueue_.samples() < recordFrameSize

            || playbackQueue_.samples() < playbackFrameSize) {

            // If there are not enough samples in either queue, we are unable to

            // process anything.

            return true;

        }

        return false;

    }


    bool getStabilizedVoiceActivity(bool voiceStatus)

    {

        bool newVoice = false;


        if (voiceStatus) {

            // we detected activity

            consecutiveActiveFrames += 1;


            // make sure that we have been active for necessary time

            if (consecutiveActiveFrames > minimumConsequtiveDurationMs / frameDurationMs_) {

                newVoice = true;


                // set number of frames that will be forced positive

                forceVoiceActiveFramesLeft = (int) forceMinimumVoiceActivityMs / frameDurationMs_;

            }

        } else if (forceVoiceActiveFramesLeft > 0) {

            // if we didn't detect voice, but we haven't elapsed the minimum duration,

            // force voice to be true

            newVoice = true;

            forceVoiceActiveFramesLeft -= 1;


            consecutiveActiveFrames += 1;

        } else {

            // else no voice and no need to force

            newVoice = false;

            consecutiveActiveFrames = 0;

        }


        return newVoice;

    }


private:

    void enqueue(AudioFrameResizer& frameResizer, std::shared_ptr<AudioFrame>&& buf)

    {

        if (buf->getFormat() != format_) {

            frameResizer.enqueue(resampler_->resample(std::move(buf), format_));

        } else

            frameResizer.enqueue(std::move(buf));

    };

};


} // namespace jami

audio_format.h

audio_frame_resizer.h

jami::AudioFrameResizer
Buffers extra samples.
Definition audio_frame_resizer.h:39

jami::AudioFrameResizer::frameSize
int frameSize() const
Gets the number of samples per output frame.
Definition audio_frame_resizer.cpp:51

jami::AudioFrameResizer::samples
int samples() const
Gets the numbers of samples available for reading.
Definition audio_frame_resizer.cpp:45

jami::AudioFrameResizer::dequeue
std::shared_ptr< AudioFrame > dequeue()
Notifies owner of a new frame.
Definition audio_frame_resizer.cpp:126

jami::AudioProcessor
Definition audio_processor.h:32

jami::AudioProcessor::AudioProcessor
AudioProcessor(AudioFormat format, unsigned frameSize)
Definition audio_processor.h:37

jami::AudioProcessor::enableVoiceActivityDetection
virtual void enableVoiceActivityDetection(bool enabled)=0
Set the status of voice activity detection.

jami::AudioProcessor::frameDurationMs_
unsigned int frameDurationMs_
Definition audio_processor.h:97

jami::AudioProcessor::playbackQueue_
AudioFrameResizer playbackQueue_
Definition audio_processor.h:90

jami::AudioProcessor::tidyQueues
bool tidyQueues()
Helper method for audio processors, should be called at start of getProcessed() Pops frames from audi...
Definition audio_processor.h:117

jami::AudioProcessor::enableNoiseSuppression
virtual void enableNoiseSuppression(bool enabled)=0
Set the status of noise suppression includes de-reverb, de-noise, high pass filter,...

jami::AudioProcessor::resampler_
std::unique_ptr< Resampler > resampler_
Definition audio_processor.h:92

jami::AudioProcessor::enableEchoCancel
virtual void enableEchoCancel(bool enabled)=0
Set the status of echo cancellation.

jami::AudioProcessor::consecutiveActiveFrames
unsigned int consecutiveActiveFrames
Definition audio_processor.h:109

jami::AudioProcessor::minimumConsequtiveDurationMs
unsigned int minimumConsequtiveDurationMs
Definition audio_processor.h:106

jami::AudioProcessor::getStabilizedVoiceActivity
bool getStabilizedVoiceActivity(bool voiceStatus)
Stablilizes voice activity.
Definition audio_processor.h:146

jami::AudioProcessor::enableAutomaticGainControl
virtual void enableAutomaticGainControl(bool enabled)=0
Set the status of automatic gain control.

jami::AudioProcessor::recordQueue_
AudioFrameResizer recordQueue_
Definition audio_processor.h:91

jami::AudioProcessor::frameSize_
unsigned int frameSize_
Definition audio_processor.h:96

jami::AudioProcessor::getProcessed
virtual std::shared_ptr< AudioFrame > getProcessed()=0
Process and return a single AudioFrame.

jami::AudioProcessor::forceVoiceActiveFramesLeft
unsigned int forceVoiceActiveFramesLeft
Definition audio_processor.h:103

jami::AudioProcessor::putPlayback
virtual void putPlayback(const std::shared_ptr< AudioFrame > &buf)
Definition audio_processor.h:54

jami::AudioProcessor::putRecorded
virtual void putRecorded(std::shared_ptr< AudioFrame > &&buf)
Definition audio_processor.h:47

jami::AudioProcessor::playbackStarted_
std::atomic_bool playbackStarted_
Definition audio_processor.h:93

jami::AudioProcessor::forceMinimumVoiceActivityMs
unsigned int forceMinimumVoiceActivityMs
Definition audio_processor.h:100

jami::AudioProcessor::format_
AudioFormat format_
Definition audio_processor.h:95

jami::AudioProcessor::recordStarted_
std::atomic_bool recordStarted_
Definition audio_processor.h:94

jami::AudioProcessor::~AudioProcessor
virtual ~AudioProcessor()=default

jami::Resampler
Wrapper class for libswresample.
Definition resampler.h:36

libav_deps.h

logger.h

JAMI_LOG
#define JAMI_LOG(formatstr,...)
Definition logger.h:225

jami
Definition account.cpp:61

jami::emitSignal
void emitSignal(Args... args)
Definition ring_signal.h:64

noncopyable.h
Simple macro to hide class' copy constructor and assignment operator.

NON_COPYABLE
#define NON_COPYABLE(ClassName)
Definition noncopyable.h:30

resampler.h

jami::AudioFormat
Structure to hold sample rate and channel number associated with audio data.
Definition audio_format.h:34