LlamaLib/LLM_8cpp_source.html

#include "LLM.h"


#if !(TARGET_OS_IOS || TARGET_OS_VISION)

std::atomic_flag sigint_terminating = ATOMIC_FLAG_INIT;


void llm_sigint_signal_handler(int sig)

{

    if (sigint_terminating.test_and_set())

    {

        // in case it hangs, we can force terminate the server by hitting Ctrl+C twice

        // this is for better developer experience, we can remove when the server is stable enough

        fprintf(stderr, "Received second interrupt, terminating immediately.\n");

        exit(1);

    }


    for (auto *inst : LLMProviderRegistry::instance().get_instances())

    {

        inst->stop();

        inst->stop_server();

    }

}

#endif


// Use a function to ensure the setup only happens once across all libraries


void ensure_error_handlers_initialized()

{

    if (!LLMProviderRegistry::initialised)

    {

        static std::once_flag initialized;

        std::call_once(initialized, [](){

            set_error_handlers();

#if !(TARGET_OS_IOS || TARGET_OS_VISION)

            register_sigint_hook(llm_sigint_signal_handler);

#endif

        });

    }

}


LLMProviderRegistry *LLMProviderRegistry::custom_instance_ = nullptr;

bool LLMProviderRegistry::initialised = false;


LLMProvider::~LLMProvider() {}


//=========================== Helpers ===========================//


std::string LLM::LLM_args_to_command(const std::string &model_path, int num_slots, int num_threads, int num_GPU_layers, bool flash_attention, int context_size, int batch_size, bool embedding_only, const std::vector<std::string> &lora_paths)

{

    std::string command =  "-m \"" + model_path + "\"" +

                          " -t " + std::to_string(num_threads) +

                          " -np " + std::to_string(num_slots) +

                          " -c " + std::to_string(context_size) +

                          " -b " + std::to_string(batch_size);


    if (num_GPU_layers > 0)

        command += " -ngl " + std::to_string(num_GPU_layers);

    command += " -fa ";

    command += flash_attention ? "on" : "off";

    if (embedding_only)

        command += " --embedding";

    for (const auto &lora_path : lora_paths)

        command += " --lora \"" + lora_path + "\"";

    return command;

}


bool LLM::has_gpu_layers(const std::string &command)

{

    std::istringstream iss(command);

    std::vector<std::string> args;

    std::string token;


    // Simple splitting (does not handle quoted args)

    while (iss >> token)

    {

        args.push_back(token);

    }


    for (size_t i = 0; i < args.size(); ++i)

    {

        const std::string &arg = args[i];


        // Match separate argument + value

        if (arg == "-ngl" || arg == "--gpu-layers" || arg == "--n-gpu-layers")

        {

            if (i + 1 < args.size())

            {

                try

                {

                    int val = std::stoi(args[i + 1]);

                    return val > 0;

                }

                catch (...)

                {

                    continue;

                }

            }

        }


        // Match inline --flag=value

        size_t eqPos = arg.find('=');

        if (eqPos != std::string::npos)

        {

            std::string key = arg.substr(0, eqPos);

            std::string value = arg.substr(eqPos + 1);


            if (key == "-ngl" || key == "--gpu-layers" || key == "--n-gpu-layers")

            {

                try

                {

                    int val = std::stoi(value);

                    return val > 0;

                }

                catch (...)

                {

                    continue;

                }

            }

        }

    }


    return false;

}


//=========================== Apply Template ===========================//


json LLM::build_apply_template_json(const json &messages)

{

    json j;

    j["messages"] = messages;

    return j;

}


std::string LLM::parse_apply_template_json(const json &result)

{

    try

    {

        return result.at("prompt").get<std::string>();

    }

    catch (const std::exception &)

    {

    }

    return "";

}


std::string LLM::apply_template(const json &messages)

{

    return parse_apply_template_json(json::parse(apply_template_json(build_apply_template_json(messages))));

}


//=========================== Tokenize ===========================//


json LLM::build_tokenize_json(const std::string &query)

{

    json j;

    j["content"] = query;

    return j;

}


std::vector<int> LLM::parse_tokenize_json(const json &result)

{

    try

    {

        return result.at("tokens").get<std::vector<int>>();

    }

    catch (const std::exception &)

    {

    }

    return {};

}


std::vector<int> LLM::tokenize(const std::string &input)

{

    return parse_tokenize_json(json::parse(tokenize_json(build_tokenize_json(input))));

}


//=========================== Detokenize ===========================//


json LLM::build_detokenize_json(const std::vector<int32_t> &tokens)

{

    json j;

    j["tokens"] = tokens;

    return j;

}


std::string LLM::parse_detokenize_json(const json &result)

{

    try

    {

        return result.at("content").get<std::string>();

    }

    catch (const std::exception &)

    {

    }

    return "";

}


std::string LLM::detokenize(const std::vector<int32_t> &tokens)

{

    return parse_detokenize_json(json::parse(detokenize_json(build_detokenize_json(tokens))));

}


//=========================== Embeddings ===========================//


json LLM::build_embeddings_json(const std::string &query)

{

    json j;

    j["content"] = query;

    return j;

}


std::vector<float> LLM::parse_embeddings_json(const json &result)

{

    try

    {

        const json& emb = result.at(0).at("embedding");

        if (emb.is_array() && !emb.empty())

        {

            if (emb[0].is_number()) return emb.get<std::vector<float>>();

            if (emb[0].is_array()) return emb.at(0).get<std::vector<float>>();

        }

    }

    catch (const std::exception &)

    {

    }

    return {};

}


std::vector<float> LLM::embeddings(const std::string &query)

{

    return parse_embeddings_json(json::parse(embeddings_json(build_embeddings_json(query))));

}


//=========================== Completion ===========================//


json LLM::build_completion_json(const std::string &prompt, int id_slot)

{

    json j;

    j["prompt"] = prompt;

    j["id_slot"] = id_slot;

    j["n_keep"] = n_keep;


    if (!grammar.empty())

    {

        try

        {

            j["json_schema"] = json::parse(grammar);

        }

        catch (const json::parse_error &)

        {

            j["grammar"] = grammar;

        }

    }


    if (completion_params.is_object())

    {

        for (json::const_iterator it = completion_params.begin(); it != completion_params.end(); ++it)

        {

            j[it.key()] = it.value();

        }

    }

    return j;

}


std::string LLM::parse_completion_json(const json &result)

{

    try

    {

        if (result.contains("error")) {

            json error = result.at("error");

            int code = error.at("code").get<int>();

            std::string message = error.at("message").get<std::string>();

            fail(message, code);

            return "";

        }

        return result.at("content").get<std::string>();

    }

    catch (const std::exception &)

    {

    }

    return "";

}


std::string LLM::completion(const std::string &prompt, CharArrayFn callback, int id_slot, bool return_response_json)

{

    std::string response = completion_json(

        build_completion_json(prompt, id_slot),

        callback,

        false);

    if (return_response_json)

        return response;

    return parse_completion_json(json::parse(response));

}


//=========================== Slot Action ===========================//


json LLMLocal::build_slot_json(int id_slot, const std::string &action, const std::string &filepath)

{

    json j;

    j["id_slot"] = id_slot;

    j["action"] = action;

    j["filepath"] = filepath;

    return j;

}


std::string LLMLocal::parse_slot_json(const json &result)

{

    try

    {

        return result.at("filename").get<std::string>();

    }

    catch (const std::exception &)

    {

    }

    return "";

}


std::string LLMLocal::slot(int id_slot, const std::string &action, const std::string &filepath)

{

    return parse_slot_json(json::parse(slot_json(build_slot_json(id_slot, action, filepath))));

}


//=========================== Logging ===========================//


void LLMProvider::logging_stop()

{

    logging_callback(nullptr);

}


//=========================== Lora Adapters Apply ===========================//


json LLMProvider::build_lora_weight_json(const std::vector<LoraIdScale> &loras)

{

    json j = json::array();

    for (const auto &lora : loras)

    {

        j.push_back({{"id", lora.id},

                     {"scale", lora.scale}});

    }

    return j;

}


bool LLMProvider::parse_lora_weight_json(const json &result)

{

    try

    {

        return result.at("success").get<bool>();

    }

    catch (const std::exception &)

    {

    }

    return false;

}


bool LLMProvider::lora_weight(const std::vector<LoraIdScale> &loras)

{

    return parse_lora_weight_json(json::parse(lora_weight_json(build_lora_weight_json(loras))));

}


//=========================== Lora Adapters List ===========================//


json LLMProvider::build_lora_list_json(const std::vector<LoraIdScalePath> &loras)

{

    json j = json::array();

    for (const auto &lora : loras)

    {

        j.push_back({{"id", lora.id},

                     {"scale", lora.scale},

                     {"path", lora.path}});

    }

    return j;

}


std::vector<LoraIdScalePath> LLMProvider::parse_lora_list_json(const json &result)

{

    std::vector<LoraIdScalePath> loras;

    try

    {

        for (const auto &lora : result)

        {

            loras.push_back({lora["id"].get<int>(),

                             lora["scale"].get<float>(),

                             lora["path"].get<std::string>()});

        }

    }

    catch (const std::exception &)

    {

    }

    return loras;

}


std::vector<LoraIdScalePath> LLMProvider::lora_list()

{

    return parse_lora_list_json(json::parse(lora_list_json()));

}


//=========================== API ===========================//


bool Has_GPU_Layers(const char *command)

{

    return LLM::has_gpu_layers(command);

}


void LLM_Debug(int debug_level)

{

    LLMProviderRegistry &registry = LLMProviderRegistry::instance();

    registry.set_debug_level(debug_level);

    for (auto *inst : registry.get_instances())

    {

        inst->debug(debug_level);

    }

}


void LLM_Logging_Callback(CharArrayFn callback)

{

    LLMProviderRegistry &registry = LLMProviderRegistry::instance();

    registry.set_log_callback(callback);

    for (auto *inst : registry.get_instances())

    {

        inst->logging_callback(callback);

    }

}


void LLM_Logging_Stop()

{

    LLM_Logging_Callback(nullptr);

}


#ifdef _DEBUG

const bool IsDebuggerAttached(void)

{

#ifdef _MSC_VER

    return ::IsDebuggerPresent();

#elif __APPLE__

    return AmIBeingDebugged();

#elif __linux__

    return debuggerIsAttached();

#else

    return false;

#endif

}

#endif


const char *LLM_Tokenize(LLM *llm, const char *query)

{

    json result = llm->tokenize(query);

    return stringToCharArray(result.dump());

}


const char *LLM_Detokenize(LLM *llm, const char *tokens_as_json)

{

    return stringToCharArray(llm->detokenize(json::parse(tokens_as_json)));

}


const char *LLM_Embeddings(LLM *llm, const char *query)

{

    json result = llm->embeddings(query);

    return stringToCharArray(result.dump());

}


const char *LLM_Completion(LLM *llm, const char *prompt, CharArrayFn callback, int id_slot, bool return_response_json)

{

    return stringToCharArray(llm->completion(prompt, callback, id_slot, return_response_json));

}


void LLM_Set_Completion_Parameters(LLM *llm, const char *params_json)

{

    json params = json::parse(params_json ? params_json : "{}");

    llm->set_completion_params(params);

}


const char *LLM_Get_Completion_Parameters(LLM *llm)

{

    return stringToCharArray((llm->completion_params).dump());

}


void LLM_Set_Grammar(LLM *llm, const char *grammar)

{

    llm->set_grammar(grammar);

}


const char *LLM_Get_Grammar(LLM *llm)

{

    return stringToCharArray(llm->grammar);

}


const char *LLM_Apply_Template(LLM *llm, const char *messages_as_json)

{

    return stringToCharArray(llm->apply_template(json::parse(messages_as_json)));

}


void LLM_Enable_Reasoning(LLMProvider *llm, bool enable_reasoning)

{

    llm->enable_reasoning(enable_reasoning);

}


const char *LLM_Save_Slot(LLMLocal *llm, int id_slot, const char *filepath)

{

    return stringToCharArray(llm->save_slot(id_slot, filepath));

}


const char *LLM_Load_Slot(LLMLocal *llm, int id_slot, const char *filepath)

{

    return stringToCharArray(llm->load_slot(id_slot, filepath));

}


void LLM_Cancel(LLMLocal *llm, int id_slot)

{

    llm->cancel(id_slot);

}


bool LLM_Lora_Weight(LLMProvider *llm, const char *loras_as_json)

{

    try

    {

        json loras_arr = json::array();

        loras_arr = json::parse(loras_as_json);

        std::vector<LoraIdScale> loras;

        for (const auto &lora : loras_arr)

        {

            loras.push_back({lora["id"].get<int>(), lora["scale"].get<float>()});

        }

        return llm->lora_weight(loras);

    }

    catch (const std::exception &)

    {

    }

    return false;

}


const char *LLM_Lora_List(LLMProvider *llm)

{

    std::vector<LoraIdScalePath> loras = llm->lora_list();

    json j = json::array();

    for (const auto &lora : loras)

    {

        j.push_back({{"id", lora.id},

                     {"scale", lora.scale}});

    }

    return stringToCharArray(j.dump());

}


void LLM_Delete(LLMProvider *llm)

{

    if (llm != nullptr)

    {

        delete llm;

    }

}


void LLM_Start_Server(LLMProvider *llm, const char *host, int port, const char *API_key)

{

    llm->start_server(host, port, API_key);

}


void LLM_Stop_Server(LLMProvider *llm)

{

    llm->stop_server();

}


void LLM_Join_Service(LLMProvider *llm)

{

    llm->join_service();

}


void LLM_Join_Server(LLMProvider *llm)

{

    llm->join_server();

}


void LLM_Start(LLMProvider *llm)

{

    llm->start();

}


const bool LLM_Started(LLMProvider *llm)

{

    return llm->started();

}


void LLM_Stop(LLMProvider *llm)

{

    llm->stop();

}


void LLM_Set_SSL(LLMProvider *llm, const char *SSL_cert, const char *SSL_key)

{

    llm->set_SSL(SSL_cert, SSL_key);

}


const int LLM_Status_Code()

{

    return get_status_code();

}


const char *LLM_Status_Message()

{

    std::string result = get_status_message();

    return stringToCharArray(result);

}


const int LLM_Embedding_Size(LLMProvider *llm)

{

    return llm->embedding_size();

}


LLM.h
Core LLM functionality interface and base classes.

ensure_error_handlers_initialized
void ensure_error_handlers_initialized()
Ensures error handlers are properly initialized.
Definition LLM.cpp:25

LLMLocal
Abstract class for local LLM operations with slot management.
Definition LLM.h:222

LLMLocal::slot_json
virtual std::string slot_json(const json &data)=0
Manage slots with HTTP response support.

LLMLocal::load_slot
virtual std::string load_slot(int id_slot, const std::string &filepath)
Load slot state from file.
Definition LLM.h:238

LLMLocal::save_slot
virtual std::string save_slot(int id_slot, const std::string &filepath)
Save slot state to file.
Definition LLM.h:232

LLMLocal::slot
virtual std::string slot(int id_slot, const std::string &action, const std::string &filepath)
Perform slot operation.
Definition LLM.cpp:317

LLMLocal::cancel
virtual void cancel(int id_slot)=0
Cancel request.

LLMLocal::build_slot_json
virtual json build_slot_json(int id_slot, const std::string &action, const std::string &filepath)
Build JSON for slot operations.
Definition LLM.cpp:296

LLMLocal::parse_slot_json
virtual std::string parse_slot_json(const json &result)
Parse slot operation result.
Definition LLM.cpp:305

LLMProviderRegistry
Registry for managing LLM provider instances.
Definition LLM.h:380

LLMProviderRegistry::get_instances
std::vector< LLMProvider * > get_instances()
Get all registered provider instances.
Definition LLM.h:426

LLMProviderRegistry::set_debug_level
void set_debug_level(int level)
Set global debug level.
Definition LLM.h:434

LLMProviderRegistry::initialised
static bool initialised
Whether the registry has been initialized.
Definition LLM.h:382

LLMProviderRegistry::set_log_callback
void set_log_callback(CharArrayFn callback)
Set global log callback.
Definition LLM.h:448

LLMProviderRegistry::instance
static LLMProviderRegistry & instance()
Get the singleton registry instance.
Definition LLM.h:395

LLMProvider
Abstract class for LLM service providers.
Definition LLM.h:275

LLMProvider::logging_callback
virtual void logging_callback(CharArrayFn callback)=0
Set logging callback function.

LLMProvider::started
virtual bool started()=0
Check if service is started.

LLMProvider::start_server
virtual void start_server(const std::string &host="0.0.0.0", int port=-1, const std::string &API_key="")=0
Start HTTP server.

LLMProvider::logging_stop
virtual void logging_stop()
Stop logging.
Definition LLM.cpp:324

LLMProvider::join_service
virtual void join_service()=0
Wait for service thread to complete.

LLMProvider::stop_server
virtual void stop_server()=0
Stop HTTP server.

LLMProvider::parse_lora_weight_json
virtual bool parse_lora_weight_json(const json &result)
Parse LoRA weight configuration result.
Definition LLM.cpp:342

LLMProvider::join_server
virtual void join_server()=0
Wait for server thread to complete.

LLMProvider::enable_reasoning
virtual void enable_reasoning(bool reasoning)
enable reasoning
Definition LLM.h:301

LLMProvider::build_lora_weight_json
virtual json build_lora_weight_json(const std::vector< LoraIdScale > &loras)
Build JSON for LoRA weight configuration.
Definition LLM.cpp:331

LLMProvider::lora_weight
virtual bool lora_weight(const std::vector< LoraIdScale > &loras)
Configure LoRA weights.
Definition LLM.cpp:354

LLMProvider::lora_list
virtual std::vector< LoraIdScalePath > lora_list()
List available LoRA adapters.
Definition LLM.cpp:391

LLMProvider::stop
virtual void stop()=0
Stop the LLM service.

LLMProvider::set_SSL
virtual void set_SSL(const std::string &SSL_cert, const std::string &SSL_key)=0
Configure SSL certificates.

LLMProvider::lora_list_json
virtual std::string lora_list_json()=0
List available LoRA adapters.

LLMProvider::~LLMProvider
virtual ~LLMProvider()
Virtual destructor.
Definition LLM.cpp:42

LLMProvider::lora_weight_json
virtual std::string lora_weight_json(const json &data)=0
Configure LoRA weights with HTTP response support.

LLMProvider::start
virtual void start()=0
Start the LLM service.

LLMProvider::parse_lora_list_json
virtual std::vector< LoraIdScalePath > parse_lora_list_json(const json &result)
Parse LoRA list result.
Definition LLM.cpp:373

LLMProvider::build_lora_list_json
virtual json build_lora_list_json(const std::vector< LoraIdScalePath > &loras)
Build JSON for LoRA list result.
Definition LLM.cpp:361

LLMProvider::embedding_size
virtual int embedding_size()=0
Get embedding vector size.

LLM
Abstract base class for Large Language Model operations.
Definition LLM.h:60

LLM::build_tokenize_json
virtual json build_tokenize_json(const std::string &query)
Build JSON for tokenization.
Definition LLM.cpp:151

LLM::embeddings_json
virtual std::string embeddings_json(const json &data)=0
Generate embeddings with HTTP response support.

LLM::n_keep
int32_t n_keep
Number of tokens to keep from the beginning of the context.
Definition LLM.h:62

LLM::build_apply_template_json
virtual json build_apply_template_json(const json &messages)
Build JSON for template application.
Definition LLM.cpp:125

LLM::parse_apply_template_json
virtual std::string parse_apply_template_json(const json &result)
Parse template application result.
Definition LLM.cpp:132

LLM::parse_tokenize_json
virtual std::vector< int > parse_tokenize_json(const json &result)
Parse tokenization result.
Definition LLM.cpp:158

LLM::apply_template
virtual std::string apply_template(const json &messages)
Apply template to messages.
Definition LLM.cpp:144

LLM::build_detokenize_json
virtual json build_detokenize_json(const std::vector< int32_t > &tokens)
Build JSON for detokenization.
Definition LLM.cpp:178

LLM::parse_completion_json
virtual std::string parse_completion_json(const json &result)
Parse completion result.
Definition LLM.cpp:264

LLM::apply_template_json
virtual std::string apply_template_json(const json &data)=0
Apply a chat template to message data.

LLM::build_completion_json
virtual json build_completion_json(const std::string &prompt, int id_slot=-1)
Build JSON for completion generation.
Definition LLM.cpp:235

LLM::tokenize_json
virtual std::string tokenize_json(const json &data)=0
Tokenize input (override)

LLM::set_completion_params
virtual void set_completion_params(json completion_params_)
Set completion parameters.
Definition LLM.h:105

LLM::detokenize
virtual std::string detokenize(const std::vector< int32_t > &tokens)
Convert tokens to text.
Definition LLM.cpp:197

LLM::completion_params
json completion_params
JSON object containing completion parameters.
Definition LLM.h:64

LLM::tokenize
virtual std::vector< int > tokenize(const std::string &query)
Tokenize text.
Definition LLM.cpp:170

LLM::completion
virtual std::string completion(const std::string &prompt, CharArrayFn callback=nullptr, int id_slot=-1, bool return_response_json=false)
Generate completion.
Definition LLM.cpp:283

LLM::set_grammar
virtual void set_grammar(std::string grammar_)
Set grammar for constrained generation.
Definition LLM.h:130

LLM::LLM_args_to_command
static std::string LLM_args_to_command(const std::string &model_path, int num_slots=1, int num_threads=-1, int num_GPU_layers=0, bool flash_attention=false, int context_size=4096, int batch_size=2048, bool embedding_only=false, const std::vector< std::string > &lora_paths={})
Convert LLM parameters to command line arguments.
Definition LLM.cpp:46

LLM::embeddings
virtual std::vector< float > embeddings(const std::string &query)
Generate embeddings.
Definition LLM.cpp:228

LLM::has_gpu_layers
static bool has_gpu_layers(const std::string &command)
Check if command line arguments specify GPU layers.
Definition LLM.cpp:65

LLM::completion_json
virtual std::string completion_json(const json &data, CharArrayFn callback, bool callbackWithJSON)=0
Generate text completion.

LLM::grammar
std::string grammar
Grammar specification in GBNF format or JSON schema.
Definition LLM.h:63

LLM::detokenize_json
virtual std::string detokenize_json(const json &data)=0
Convert tokens back to text.

LLM::parse_embeddings_json
virtual std::vector< float > parse_embeddings_json(const json &result)
Parse embeddings result.
Definition LLM.cpp:211

LLM::build_embeddings_json
virtual json build_embeddings_json(const std::string &query)
Build JSON for embeddings generation.
Definition LLM.cpp:204

LLM::parse_detokenize_json
virtual std::string parse_detokenize_json(const json &result)
Parse detokenization result.
Definition LLM.cpp:185

LLM_Lora_List
const char * LLM_Lora_List(LLMProvider *llm)
List LoRA adapters (C API)
Definition LLM.cpp:530

LLM_Get_Grammar
const char * LLM_Get_Grammar(LLM *llm)
Get grammar (C API)
Definition LLM.cpp:481

LLM_Stop
void LLM_Stop(LLMProvider *llm)
Stop LLM service (C API)
Definition LLM.cpp:580

LLM_Enable_Reasoning
void LLM_Enable_Reasoning(LLMProvider *llm, bool enable_reasoning)
Enable reasoning (C API)
Definition LLM.cpp:491

LLM_Save_Slot
const char * LLM_Save_Slot(LLMLocal *llm, int id_slot, const char *filepath)
Save slot state (C API)
Definition LLM.cpp:496

LLM_Logging_Callback
void LLM_Logging_Callback(CharArrayFn callback)
Set global logging callback (C API)
Definition LLM.cpp:413

LLM_Load_Slot
const char * LLM_Load_Slot(LLMLocal *llm, int id_slot, const char *filepath)
Load slot state (C API)
Definition LLM.cpp:501

LLM_Join_Service
void LLM_Join_Service(LLMProvider *llm)
Wait for service to complete (C API)
Definition LLM.cpp:560

LLM_Set_SSL
void LLM_Set_SSL(LLMProvider *llm, const char *SSL_cert, const char *SSL_key)
Set SSL configuration (C API)
Definition LLM.cpp:585

Has_GPU_Layers
bool Has_GPU_Layers(const char *command)
Check if command has GPU layers (C API)
Definition LLM.cpp:398

LLM_Status_Message
const char * LLM_Status_Message()
Get last operation status message (C API)
Definition LLM.cpp:595

LLM_Set_Grammar
void LLM_Set_Grammar(LLM *llm, const char *grammar="")
Set grammar (C API)
Definition LLM.cpp:476

LLM_Apply_Template
const char * LLM_Apply_Template(LLM *llm, const char *messages_as_json)
Apply chat template (C API)
Definition LLM.cpp:486

LLM_Cancel
void LLM_Cancel(LLMLocal *llm, int id_slot)
Cancel request (C API)
Definition LLM.cpp:506

LLM_Logging_Stop
void LLM_Logging_Stop()
Stop global logging (C API)
Definition LLM.cpp:423

LLM_Start
void LLM_Start(LLMProvider *llm)
Start LLM service (C API)
Definition LLM.cpp:570

LLM_Set_Completion_Parameters
void LLM_Set_Completion_Parameters(LLM *llm, const char *params_json="{}")
Set completion parameters (C API)
Definition LLM.cpp:465

LLM_Embedding_Size
const int LLM_Embedding_Size(LLMProvider *llm)
Get embedding vector size (C API)
Definition LLM.cpp:601

LLM_Delete
void LLM_Delete(LLMProvider *llm)
Delete LLM provider (C API)
Definition LLM.cpp:542

LLM_Debug
void LLM_Debug(int debug_level)
Set global debug level (C API)
Definition LLM.cpp:403

LLM_Lora_Weight
bool LLM_Lora_Weight(LLMProvider *llm, const char *loras_as_json)
Configure LoRA weights (C API)
Definition LLM.cpp:511

LLM_Completion
const char * LLM_Completion(LLM *llm, const char *prompt, CharArrayFn callback=nullptr, int id_slot=-1, bool return_response_json=false)
Generate completion (C API)
Definition LLM.cpp:460

LLM_Tokenize
const char * LLM_Tokenize(LLM *llm, const char *query)
Tokenize text (C API)
Definition LLM.cpp:443

LLM_Join_Server
void LLM_Join_Server(LLMProvider *llm)
Wait for server to complete (C API)
Definition LLM.cpp:565

LLM_Started
const bool LLM_Started(LLMProvider *llm)
Check if service is started (C API)
Definition LLM.cpp:575

LLM_Get_Completion_Parameters
const char * LLM_Get_Completion_Parameters(LLM *llm)
Get completion parameters (C API)
Definition LLM.cpp:471

LLM_Embeddings
const char * LLM_Embeddings(LLM *llm, const char *query)
Generate embeddings (C API)
Definition LLM.cpp:454

LLM_Status_Code
const int LLM_Status_Code()
Get last operation status code (C API)
Definition LLM.cpp:590

LLM_Stop_Server
void LLM_Stop_Server(LLMProvider *llm)
Stop HTTP server (C API)
Definition LLM.cpp:555

LLM_Detokenize
const char * LLM_Detokenize(LLM *llm, const char *tokens_as_json)
Detokenize tokens (C API)
Definition LLM.cpp:449

LLM_Start_Server
void LLM_Start_Server(LLMProvider *llm, const char *host="0.0.0.0", int port=-1, const char *API_key="")
Start HTTP server (C API)
Definition LLM.cpp:550