RWKV-Runner/backend-python/routes/completion.py

import asyncio
import json
from threading import Lock
from typing import List

from fastapi import APIRouter, Request, status, HTTPException
from sse_starlette.sse import EventSourceResponse
from pydantic import BaseModel
from utils.rwkv import *
from utils.log import quick_log
import global_var

router = APIRouter()


class Message(BaseModel):
    role: str
    content: str


class ChatCompletionBody(ModelConfigBody):
    messages: List[Message]
    model: str = "rwkv"
    stream: bool = False
    stop: str = None


completion_lock = Lock()

requests_num = 0


@router.post("/v1/chat/completions")
@router.post("/chat/completions")
async def chat_completions(body: ChatCompletionBody, request: Request):
    model: RWKV = global_var.get(global_var.Model)
    if model is None:
        raise HTTPException(status.HTTP_400_BAD_REQUEST, "model not loaded")

    question = body.messages[-1]
    if question.role == "user":
        question = question.content
    elif question.role == "system":
        question = body.messages[-2]
        if question.role == "user":
            question = question.content
        else:
            raise HTTPException(status.HTTP_400_BAD_REQUEST, "no question found")
    else:
        raise HTTPException(status.HTTP_400_BAD_REQUEST, "no question found")

    interface = model.interface
    user = model.user
    bot = model.bot

    completion_text = (
        f"""
The following is a coherent verbose detailed conversation between a girl named {bot} and her friend {user}. \
{bot} is very intelligent, creative and friendly. \
{bot} is unlikely to disagree with {user}, and {bot} doesn't like to ask {user} questions. \
{bot} likes to tell {user} a lot about herself and her opinions. \
{bot} usually gives {user} kind, helpful and informative advices.\n
"""
        if user == "Bob"
        else f"{user}{interface} hi\n\n{bot}{interface} Hi. I am your assistant and I will provide expert full response in full details. Please feel free to ask any question and I will always answer it.\n\n"
    )
    for message in body.messages:
        if message.role == "system":
            completion_text = (
                f"The following is a coherent verbose detailed conversation between a girl named {bot} and her friend {user}. "
                if user == "Bob"
                else f"{user}{interface} hi\n\n{bot}{interface} Hi. "
                + message.content.replace("\\n", "\n")
                .replace("\r\n", "\n")
                .replace("\n\n", "\n")
                .replace("\n", " ")
                .strip()
                .replace("You are", f"{bot} is" if user == "Bob" else "I am")
                .replace("you are", f"{bot} is" if user == "Bob" else "I am")
                .replace("You're", f"{bot} is" if user == "Bob" else "I'm")
                .replace("you're", f"{bot} is" if user == "Bob" else "I'm")
                .replace("You", f"{bot}" if user == "Bob" else "I")
                .replace("you", f"{bot}" if user == "Bob" else "I")
                .replace("Your", f"{bot}'s" if user == "Bob" else "My")
                .replace("your", f"{bot}'s" if user == "Bob" else "my")
                .replace("你", f"{bot}" if user == "Bob" else "我")
                + "\n\n"
            )
            break
    for message in body.messages:
        if message.role == "user":
            completion_text += (
                f"{user}{interface} "
                + message.content.replace("\\n", "\n")
                .replace("\r\n", "\n")
                .replace("\n\n", "\n")
                .strip()
                + "\n\n"
            )
        elif message.role == "assistant":
            completion_text += (
                f"{bot}{interface} "
                + message.content.replace("\\n", "\n")
                .replace("\r\n", "\n")
                .replace("\n\n", "\n")
                .strip()
                + "\n\n"
            )
    completion_text += f"{bot}{interface}"

    async def eval_rwkv():
        global requests_num
        requests_num = requests_num + 1
        quick_log(request, None, "Start Waiting. RequestsNum: " + str(requests_num))
        while completion_lock.locked():
            if await request.is_disconnected():
                requests_num = requests_num - 1
                print(f"{request.client} Stop Waiting (Lock)")
                quick_log(
                    request,
                    None,
                    "Stop Waiting (Lock). RequestsNum: " + str(requests_num),
                )
                return
            await asyncio.sleep(0.1)
        else:
            completion_lock.acquire()
            if await request.is_disconnected():
                completion_lock.release()
                requests_num = requests_num - 1
                print(f"{request.client} Stop Waiting (Lock)")
                quick_log(
                    request,
                    None,
                    "Stop Waiting (Lock). RequestsNum: " + str(requests_num),
                )
                return
            set_rwkv_config(model, global_var.get(global_var.Model_Config))
            set_rwkv_config(model, body)
            if body.stream:
                response = ""
                for response, delta in model.generate(
                    completion_text,
                    stop=f"\n\n{user}" if body.stop is None else body.stop,
                ):
                    if await request.is_disconnected():
                        break
                    yield json.dumps(
                        {
                            "response": response,
                            "model": "rwkv",
                            "choices": [
                                {
                                    "delta": {"content": delta},
                                    "index": 0,
                                    "finish_reason": None,
                                }
                            ],
                        }
                    )
                # torch_gc()
                requests_num = requests_num - 1
                completion_lock.release()
                if await request.is_disconnected():
                    print(f"{request.client} Stop Waiting")
                    quick_log(
                        request,
                        body,
                        response + "\nStop Waiting. RequestsNum: " + str(requests_num),
                    )
                    return
                quick_log(
                    request,
                    body,
                    response + "\nFinished. RequestsNum: " + str(requests_num),
                )
                yield json.dumps(
                    {
                        "response": response,
                        "model": "rwkv",
                        "choices": [
                            {
                                "delta": {},
                                "index": 0,
                                "finish_reason": "stop",
                            }
                        ],
                    }
                )
                yield "[DONE]"
            else:
                response = ""
                for response, delta in model.generate(
                    completion_text,
                    stop=f"\n\n{user}" if body.stop is None else body.stop,
                ):
                    if await request.is_disconnected():
                        break
                # torch_gc()
                requests_num = requests_num - 1
                completion_lock.release()
                if await request.is_disconnected():
                    print(f"{request.client} Stop Waiting")
                    quick_log(
                        request,
                        body,
                        response + "\nStop Waiting. RequestsNum: " + str(requests_num),
                    )
                    return
                quick_log(
                    request,
                    body,
                    response + "\nFinished. RequestsNum: " + str(requests_num),
                )
                yield {
                    "response": response,
                    "model": "rwkv",
                    "choices": [
                        {
                            "message": {
                                "role": "assistant",
                                "content": response,
                            },
                            "index": 0,
                            "finish_reason": "stop",
                        }
                    ],
                }

    if body.stream:
        return EventSourceResponse(eval_rwkv())
    else:
        try:
            return await eval_rwkv().__anext__()
        except StopAsyncIteration:
            return None


class CompletionBody(ModelConfigBody):
    prompt: str
    model: str = "rwkv"
    stream: bool = False
    stop: str = None


@router.post("/v1/completions")
@router.post("/completions")
async def completions(body: CompletionBody, request: Request):
    model: RWKV = global_var.get(global_var.Model)
    if model is None:
        raise HTTPException(status.HTTP_400_BAD_REQUEST, "model not loaded")

    if body.prompt is None or body.prompt == "":
        raise HTTPException(status.HTTP_400_BAD_REQUEST, "prompt not found")

    async def eval_rwkv():
        global requests_num
        requests_num = requests_num + 1
        quick_log(request, None, "Start Waiting. RequestsNum: " + str(requests_num))
        while completion_lock.locked():
            if await request.is_disconnected():
                requests_num = requests_num - 1
                print(f"{request.client} Stop Waiting (Lock)")
                quick_log(
                    request,
                    None,
                    "Stop Waiting (Lock). RequestsNum: " + str(requests_num),
                )
                return
            await asyncio.sleep(0.1)
        else:
            completion_lock.acquire()
            if await request.is_disconnected():
                completion_lock.release()
                requests_num = requests_num - 1
                print(f"{request.client} Stop Waiting (Lock)")
                quick_log(
                    request,
                    None,
                    "Stop Waiting (Lock). RequestsNum: " + str(requests_num),
                )
                return
            set_rwkv_config(model, global_var.get(global_var.Model_Config))
            set_rwkv_config(model, body)
            if body.stream:
                response = ""
                for response, delta in model.generate(body.prompt, stop=body.stop):
                    if await request.is_disconnected():
                        break
                    yield json.dumps(
                        {
                            "response": response,
                            "model": "rwkv",
                            "choices": [
                                {
                                    "text": delta,
                                    "index": 0,
                                    "finish_reason": None,
                                }
                            ],
                        }
                    )
                # torch_gc()
                requests_num = requests_num - 1
                completion_lock.release()
                if await request.is_disconnected():
                    print(f"{request.client} Stop Waiting")
                    quick_log(
                        request,
                        body,
                        response + "\nStop Waiting. RequestsNum: " + str(requests_num),
                    )
                    return
                quick_log(
                    request,
                    body,
                    response + "\nFinished. RequestsNum: " + str(requests_num),
                )
                yield json.dumps(
                    {
                        "response": response,
                        "model": "rwkv",
                        "choices": [
                            {
                                "text": "",
                                "index": 0,
                                "finish_reason": "stop",
                            }
                        ],
                    }
                )
                yield "[DONE]"
            else:
                response = ""
                for response, delta in model.generate(body.prompt, stop=body.stop):
                    if await request.is_disconnected():
                        break
                # torch_gc()
                requests_num = requests_num - 1
                completion_lock.release()
                if await request.is_disconnected():
                    print(f"{request.client} Stop Waiting")
                    quick_log(
                        request,
                        body,
                        response + "\nStop Waiting. RequestsNum: " + str(requests_num),
                    )
                    return
                quick_log(
                    request,
                    body,
                    response + "\nFinished. RequestsNum: " + str(requests_num),
                )
                yield {
                    "response": response,
                    "model": "rwkv",
                    "choices": [
                        {
                            "text": response,
                            "index": 0,
                            "finish_reason": "stop",
                        }
                    ],
                }

    if body.stream:
        return EventSourceResponse(eval_rwkv())
    else:
        try:
            return await eval_rwkv().__anext__()
        except StopAsyncIteration:
            return None
preliminary usable features 2023-05-17 11:39:00 +08:00			`import asyncio`
backend api 2023-05-07 17:27:54 +08:00			`import json`
preliminary usable features 2023-05-17 11:39:00 +08:00			`from threading import Lock`
backend api 2023-05-07 17:27:54 +08:00			`from typing import List`

			`from fastapi import APIRouter, Request, status, HTTPException`
			`from sse_starlette.sse import EventSourceResponse`
			`from pydantic import BaseModel`
			`from utils.rwkv import *`
add logs 2023-06-03 17:12:59 +08:00			`from utils.log import quick_log`
backend api 2023-05-07 17:27:54 +08:00			`import global_var`

			`router = APIRouter()`


			`class Message(BaseModel):`
			`role: str`
			`content: str`


add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`class ChatCompletionBody(ModelConfigBody):`
backend api 2023-05-07 17:27:54 +08:00			`messages: List[Message]`
update 2023-05-17 11:47:45 +08:00			`model: str = "rwkv"`
			`stream: bool = False`
improve compatible API 2023-05-22 11:24:57 +08:00			`stop: str = None`
preliminary usable features 2023-05-17 11:39:00 +08:00

			`completion_lock = Lock()`
backend api 2023-05-07 17:27:54 +08:00
add logs 2023-06-03 17:12:59 +08:00			`requests_num = 0`

backend api 2023-05-07 17:27:54 +08:00
			`@router.post("/v1/chat/completions")`
			`@router.post("/chat/completions")`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`async def chat_completions(body: ChatCompletionBody, request: Request):`
preliminary usable features 2023-05-17 11:39:00 +08:00			`model: RWKV = global_var.get(global_var.Model)`
			`if model is None:`
update 2023-05-07 22:48:52 +08:00			`raise HTTPException(status.HTTP_400_BAD_REQUEST, "model not loaded")`
backend api 2023-05-07 17:27:54 +08:00
			`question = body.messages[-1]`
preliminary usable features 2023-05-17 11:39:00 +08:00			`if question.role == "user":`
backend api 2023-05-07 17:27:54 +08:00			`question = question.content`
allow system to be placed anywhere 2023-05-29 22:26:22 +08:00			`elif question.role == "system":`
			`question = body.messages[-2]`
			`if question.role == "user":`
			`question = question.content`
			`else:`
			`raise HTTPException(status.HTTP_400_BAD_REQUEST, "no question found")`
backend api 2023-05-07 17:27:54 +08:00			`else:`
			`raise HTTPException(status.HTTP_400_BAD_REQUEST, "no question found")`

support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`interface = model.interface`
			`user = model.user`
			`bot = model.bot`

			`completion_text = (`
			`f"""`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`The following is a coherent verbose detailed conversation between a girl named {bot} and her friend {user}. \`
			`{bot} is very intelligent, creative and friendly. \`
			`{bot} is unlikely to disagree with {user}, and {bot} doesn't like to ask {user} questions. \`
			`{bot} likes to tell {user} a lot about herself and her opinions. \`
			`{bot} usually gives {user} kind, helpful and informative advices.\n`
			`"""`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`if user == "Bob"`
improve system for rwkv-4-world 2023-05-31 12:46:06 +08:00			`else f"{user}{interface} hi\n\n{bot}{interface} Hi. I am your assistant and I will provide expert full response in full details. Please feel free to ask any question and I will always answer it.\n\n"`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`)`
backend api 2023-05-07 17:27:54 +08:00			`for message in body.messages:`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`if message.role == "system":`
			`completion_text = (`
			`f"The following is a coherent verbose detailed conversation between a girl named {bot} and her friend {user}. "`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`if user == "Bob"`
improve system for rwkv-4-world 2023-05-31 12:46:06 +08:00			`else f"{user}{interface} hi\n\n{bot}{interface} Hi. "`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`+ message.content.replace("\\n", "\n")`
			`.replace("\r\n", "\n")`
			`.replace("\n\n", "\n")`
			`.replace("\n", " ")`
			`.strip()`
improve system for rwkv-4-world 2023-05-31 12:46:06 +08:00			`.replace("You are", f"{bot} is" if user == "Bob" else "I am")`
			`.replace("you are", f"{bot} is" if user == "Bob" else "I am")`
			`.replace("You're", f"{bot} is" if user == "Bob" else "I'm")`
			`.replace("you're", f"{bot} is" if user == "Bob" else "I'm")`
			`.replace("You", f"{bot}" if user == "Bob" else "I")`
			`.replace("you", f"{bot}" if user == "Bob" else "I")`
			`.replace("Your", f"{bot}'s" if user == "Bob" else "My")`
			`.replace("your", f"{bot}'s" if user == "Bob" else "my")`
			`.replace("你", f"{bot}" if user == "Bob" else "我")`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`+ "\n\n"`
			`)`
allow system to be placed anywhere 2023-05-29 22:26:22 +08:00			`break`
			`for message in body.messages:`
			`if message.role == "user":`
fix completion_text 2023-05-21 23:25:58 +08:00			`completion_text += (`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`f"{user}{interface} "`
fix completion_text 2023-05-21 23:25:58 +08:00			`+ message.content.replace("\\n", "\n")`
			`.replace("\r\n", "\n")`
			`.replace("\n\n", "\n")`
			`.strip()`
			`+ "\n\n"`
			`)`
preliminary usable features 2023-05-17 11:39:00 +08:00			`elif message.role == "assistant":`
fix completion_text 2023-05-21 23:25:58 +08:00			`completion_text += (`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`f"{bot}{interface} "`
fix completion_text 2023-05-21 23:25:58 +08:00			`+ message.content.replace("\\n", "\n")`
			`.replace("\r\n", "\n")`
			`.replace("\n\n", "\n")`
			`.strip()`
			`+ "\n\n"`
			`)`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`completion_text += f"{bot}{interface}"`
backend api 2023-05-07 17:27:54 +08:00
			`async def eval_rwkv():`
add logs 2023-06-03 17:12:59 +08:00			`global requests_num`
			`requests_num = requests_num + 1`
			`quick_log(request, None, "Start Waiting. RequestsNum: " + str(requests_num))`
preliminary usable features 2023-05-17 11:39:00 +08:00			`while completion_lock.locked():`
improve api concurrency performance 2023-05-27 15:18:12 +08:00			`if await request.is_disconnected():`
add logs 2023-06-03 17:12:59 +08:00			`requests_num = requests_num - 1`
improve logs 2023-06-03 17:36:50 +08:00			`print(f"{request.client} Stop Waiting (Lock)")`
add logs 2023-06-03 17:12:59 +08:00			`quick_log(`
improve logs 2023-06-03 17:36:50 +08:00			`request,`
			`None,`
			`"Stop Waiting (Lock). RequestsNum: " + str(requests_num),`
add logs 2023-06-03 17:12:59 +08:00			`)`
improve api concurrency performance 2023-05-27 15:18:12 +08:00			`return`
preliminary usable features 2023-05-17 11:39:00 +08:00			`await asyncio.sleep(0.1)`
backend api 2023-05-07 17:27:54 +08:00			`else:`
fix py lock 2023-05-21 13:46:54 +08:00			`completion_lock.acquire()`
improve logs 2023-06-03 19:28:37 +08:00			`if await request.is_disconnected():`
			`completion_lock.release()`
			`requests_num = requests_num - 1`
			`print(f"{request.client} Stop Waiting (Lock)")`
			`quick_log(`
			`request,`
			`None,`
			`"Stop Waiting (Lock). RequestsNum: " + str(requests_num),`
			`)`
			`return`
fix py lock 2023-05-21 13:46:54 +08:00			`set_rwkv_config(model, global_var.get(global_var.Model_Config))`
			`set_rwkv_config(model, body)`
			`if body.stream:`
fix UnboundLocalError: local variable 'response' referenced before assignment 2023-06-08 13:30:34 +08:00			`response = ""`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`for response, delta in model.generate(`
improve compatible API 2023-05-22 11:24:57 +08:00			`completion_text,`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`stop=f"\n\n{user}" if body.stop is None else body.stop,`
fix py lock 2023-05-21 13:46:54 +08:00			`):`
			`if await request.is_disconnected():`
			`break`
preliminary usable features 2023-05-17 11:39:00 +08:00			`yield json.dumps(`
			`{`
			`"response": response,`
			`"model": "rwkv",`
			`"choices": [`
			`{`
fix py lock 2023-05-21 13:46:54 +08:00			`"delta": {"content": delta},`
preliminary usable features 2023-05-17 11:39:00 +08:00			`"index": 0,`
fix py lock 2023-05-21 13:46:54 +08:00			`"finish_reason": None,`
preliminary usable features 2023-05-17 11:39:00 +08:00			`}`
			`],`
			`}`
			`)`
fix api completion_lock (#6) 2023-05-24 11:45:55 +08:00			`# torch_gc()`
add logs 2023-06-03 17:12:59 +08:00			`requests_num = requests_num - 1`
fix api completion_lock (#6) 2023-05-24 11:45:55 +08:00			`completion_lock.release()`
fix py lock 2023-05-21 13:46:54 +08:00			`if await request.is_disconnected():`
add logs 2023-06-03 17:12:59 +08:00			`print(f"{request.client} Stop Waiting")`
			`quick_log(`
			`request,`
			`body,`
			`response + "\nStop Waiting. RequestsNum: " + str(requests_num),`
			`)`
fix py lock 2023-05-21 13:46:54 +08:00			`return`
add logs 2023-06-03 17:12:59 +08:00			`quick_log(`
			`request,`
			`body,`
			`response + "\nFinished. RequestsNum: " + str(requests_num),`
			`)`
fix py lock 2023-05-21 13:46:54 +08:00			`yield json.dumps(`
			`{`
preliminary usable features 2023-05-17 11:39:00 +08:00			`"response": response,`
			`"model": "rwkv",`
			`"choices": [`
			`{`
fix py lock 2023-05-21 13:46:54 +08:00			`"delta": {},`
preliminary usable features 2023-05-17 11:39:00 +08:00			`"index": 0,`
			`"finish_reason": "stop",`
			`}`
			`],`
			`}`
fix py lock 2023-05-21 13:46:54 +08:00			`)`
			`yield "[DONE]"`
			`else:`
fix UnboundLocalError: local variable 'response' referenced before assignment 2023-06-08 13:30:34 +08:00			`response = ""`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`for response, delta in model.generate(`
improve compatible API 2023-05-22 11:24:57 +08:00			`completion_text,`
add `role: "system"` support 2023-05-24 14:01:22 +08:00			`stop=f"\n\n{user}" if body.stop is None else body.stop,`
fix py lock 2023-05-21 13:46:54 +08:00			`):`
			`if await request.is_disconnected():`
			`break`
fix api completion_lock (#6) 2023-05-24 11:45:55 +08:00			`# torch_gc()`
add logs 2023-06-03 17:12:59 +08:00			`requests_num = requests_num - 1`
improve logs 2023-06-03 17:36:50 +08:00			`completion_lock.release()`
			`if await request.is_disconnected():`
			`print(f"{request.client} Stop Waiting")`
			`quick_log(`
			`request,`
			`body,`
			`response + "\nStop Waiting. RequestsNum: " + str(requests_num),`
			`)`
			`return`
add logs 2023-06-03 17:12:59 +08:00			`quick_log(`
			`request,`
			`body,`
			`response + "\nFinished. RequestsNum: " + str(requests_num),`
			`)`
fix py lock 2023-05-21 13:46:54 +08:00			`yield {`
			`"response": response,`
			`"model": "rwkv",`
			`"choices": [`
			`{`
			`"message": {`
			`"role": "assistant",`
			`"content": response,`
			`},`
			`"index": 0,`
			`"finish_reason": "stop",`
			`}`
			`],`
			`}`
backend api 2023-05-07 17:27:54 +08:00
preliminary usable features 2023-05-17 11:39:00 +08:00			`if body.stream:`
			`return EventSourceResponse(eval_rwkv())`
			`else:`
add logs 2023-06-03 17:12:59 +08:00			`try:`
			`return await eval_rwkv().__anext__()`
			`except StopAsyncIteration:`
			`return None`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00

			`class CompletionBody(ModelConfigBody):`
			`prompt: str`
			`model: str = "rwkv"`
			`stream: bool = False`
			`stop: str = None`


			`@router.post("/v1/completions")`
			`@router.post("/completions")`
			`async def completions(body: CompletionBody, request: Request):`
			`model: RWKV = global_var.get(global_var.Model)`
			`if model is None:`
			`raise HTTPException(status.HTTP_400_BAD_REQUEST, "model not loaded")`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00
improve api concurrency performance 2023-05-27 15:18:12 +08:00			`if body.prompt is None or body.prompt == "":`
			`raise HTTPException(status.HTTP_400_BAD_REQUEST, "prompt not found")`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00
			`async def eval_rwkv():`
add logs 2023-06-03 17:12:59 +08:00			`global requests_num`
			`requests_num = requests_num + 1`
			`quick_log(request, None, "Start Waiting. RequestsNum: " + str(requests_num))`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`while completion_lock.locked():`
improve api concurrency performance 2023-05-27 15:18:12 +08:00			`if await request.is_disconnected():`
add logs 2023-06-03 17:12:59 +08:00			`requests_num = requests_num - 1`
improve logs 2023-06-03 17:36:50 +08:00			`print(f"{request.client} Stop Waiting (Lock)")`
add logs 2023-06-03 17:12:59 +08:00			`quick_log(`
improve logs 2023-06-03 17:36:50 +08:00			`request,`
			`None,`
			`"Stop Waiting (Lock). RequestsNum: " + str(requests_num),`
add logs 2023-06-03 17:12:59 +08:00			`)`
improve api concurrency performance 2023-05-27 15:18:12 +08:00			`return`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`await asyncio.sleep(0.1)`
			`else:`
			`completion_lock.acquire()`
improve logs 2023-06-03 19:28:37 +08:00			`if await request.is_disconnected():`
			`completion_lock.release()`
			`requests_num = requests_num - 1`
			`print(f"{request.client} Stop Waiting (Lock)")`
			`quick_log(`
			`request,`
			`None,`
			`"Stop Waiting (Lock). RequestsNum: " + str(requests_num),`
			`)`
			`return`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`set_rwkv_config(model, global_var.get(global_var.Model_Config))`
			`set_rwkv_config(model, body)`
			`if body.stream:`
fix UnboundLocalError: local variable 'response' referenced before assignment 2023-06-08 13:30:34 +08:00			`response = ""`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`for response, delta in model.generate(body.prompt, stop=body.stop):`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`if await request.is_disconnected():`
			`break`
			`yield json.dumps(`
			`{`
			`"response": response,`
			`"model": "rwkv",`
			`"choices": [`
			`{`
			`"text": delta,`
			`"index": 0,`
			`"finish_reason": None,`
			`}`
			`],`
			`}`
			`)`
fix api completion_lock (#6) 2023-05-24 11:45:55 +08:00			`# torch_gc()`
add logs 2023-06-03 17:12:59 +08:00			`requests_num = requests_num - 1`
fix api completion_lock (#6) 2023-05-24 11:45:55 +08:00			`completion_lock.release()`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`if await request.is_disconnected():`
add logs 2023-06-03 17:12:59 +08:00			`print(f"{request.client} Stop Waiting")`
			`quick_log(`
			`request,`
			`body,`
			`response + "\nStop Waiting. RequestsNum: " + str(requests_num),`
			`)`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`return`
add logs 2023-06-03 17:12:59 +08:00			`quick_log(`
			`request,`
			`body,`
			`response + "\nFinished. RequestsNum: " + str(requests_num),`
			`)`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`yield json.dumps(`
			`{`
			`"response": response,`
			`"model": "rwkv",`
			`"choices": [`
			`{`
			`"text": "",`
			`"index": 0,`
			`"finish_reason": "stop",`
			`}`
			`],`
			`}`
			`)`
			`yield "[DONE]"`
			`else:`
fix UnboundLocalError: local variable 'response' referenced before assignment 2023-06-08 13:30:34 +08:00			`response = ""`
support for rwkv-4-world 2023-05-28 12:53:14 +08:00			`for response, delta in model.generate(body.prompt, stop=body.stop):`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`if await request.is_disconnected():`
			`break`
fix api completion_lock (#6) 2023-05-24 11:45:55 +08:00			`# torch_gc()`
add logs 2023-06-03 17:12:59 +08:00			`requests_num = requests_num - 1`
improve logs 2023-06-03 17:36:50 +08:00			`completion_lock.release()`
			`if await request.is_disconnected():`
			`print(f"{request.client} Stop Waiting")`
			`quick_log(`
			`request,`
			`body,`
			`response + "\nStop Waiting. RequestsNum: " + str(requests_num),`
			`)`
			`return`
add logs 2023-06-03 17:12:59 +08:00			`quick_log(`
			`request,`
			`body,`
			`response + "\nFinished. RequestsNum: " + str(requests_num),`
			`)`
add compatible /v1/completions API 2023-05-22 11:18:37 +08:00			`yield {`
			`"response": response,`
			`"model": "rwkv",`
			`"choices": [`
			`{`
			`"text": response,`
			`"index": 0,`
			`"finish_reason": "stop",`
			`}`
			`],`
			`}`

			`if body.stream:`
			`return EventSourceResponse(eval_rwkv())`
			`else:`
add logs 2023-06-03 17:12:59 +08:00			`try:`
			`return await eval_rwkv().__anext__()`
			`except StopAsyncIteration:`
			`return None`