llama-cpp-python(2)
-
미니PC에 gpu 연결해서 LLM 운영하기
안녕하세요. 쿠루가이입니다.지난영상에서 미니PC에 egpu를 연결하여 게임하는것을 보여드렸는데요. 이번에는 AI 모델 구동하는 모습을 보여드리겠습니다. 지난번에는 RTX 3070을 연결했었는데 AI모델을 구동하기엔 VRAM이 너무 적어서 48GB VRAM을 가진 RTX 8000 모델로 교체해서 LLM을 구동하는것을 보여드리겠습니다. AI 공부하실 때 이렇게도 구성할 수 있구나 하는 정도로만 보시면 될것 같습니다.미니PC와 EGPU 설치 및 구동에 대해서 궁금하시면 오른쪽 상단의 토스 메시지를 클릭해주세요. 도커(Docker) 설치하기1. 도커를 설치하기 위해서 구글에 접속합니다. 그리고 'docker desktop'라고 검색합니다. 그럼 첫번째로 뜨는 링크를 클릭합니다.2. 운영체제에 맞게 설치 프로그램..
2024.09.03 -
github의 llama_cpp.server에 lora 기능을 추가해달라고 요청했다!
안녕하세요. 쿠루가이입니다. `llama.cpp`를 OPENAI와 비슷하게 사용할 수 있는 `llama-cpp-python` 라고 있습니다. 최근에 gguf 파일도 추가되고 정말 좋은데요. 한가지 lora를 적용할 수 없어서 사용이 좀 꺼려지더군요. LLM을 사용하는 이유는 거의 커스터마이즈된 나만의 LLM을 갖기 위해서인데 lora가 없어서 너무 불편했습니다. 그래서 github에 아래와 같이 의뢰를 했었습니다. 그 후에 다른 유저들이 제 말을 못 알아 들었는지 llama_cpp.server가 아니라 자꾸 파이썬 코드에서 불러오는걸 사용해봐라. 모델을 병합하여 gguf만들어 그냥 사용하라라는 답변을 주더군요. 저는 llama.cpp에 lora 메뉴가 있으니까 그걸 llama_cpp.server에 적용해..
2023.09.19