본문 바로가기

인공지능

GPT 구조에 대한 초간단 리뷰 GPT 구조에 대한 초간단 리뷰 GPT(Generative Pre-trained Transformer)란 무엇인가? GPT는 자연어 처리(Natural Language Processing, NLP) 분야에서 각광받는 인공 지능 모델 중 하나입니다. 트랜스포머(Transformer) 아키텍처를 기반으로 하며, 대규모의 데이터로 비지도학습(Unsupervised Learning)을 통해 사전 훈련(Pre-trained)되어 있습니다. 이 모델은 다음 토큰 예측(Next Token Prediction)을 통해 훈련되며, 이는 주어진 텍스트 뒤에 이어질 단어나 문자를 예측하는 것을 목표로 합니다. 이 과정을 통해 언어의 근본적인 패턴을 학습하고, 이를 다양한 하위 작업에 파인튜닝(Fine-tuning)하여 활용.. 더보기
샘 알트먼, "AI를 멈출 마법 버튼은 없다" 샘 알트먼, "AI를 멈출 마법 버튼은 없다" "Sam Altman: there’s no “magic red button” to stop AI"은 유튜브에서 볼 수 있는 내용으로, Sam Altman이 "AI를 멈출 마법 버튼은 없다" 라는 주제로 인터뷰 한 내용을 요약 했습니다. 배경 샘 알트먼과 사티아 나델라, 인공 지능의 미래를 형성하는 가장 중요한 인물 중 두 명으로 꼽히고 있습니다. 샘 알트먼은 OpenAI의 CEO로, ChatGPT를 개발한 스타트업인 OpenAI의 지도자입니다. 사티아 나델라는 Microsoft의 CEO로, OpenAI의 주요 투자자 중 하나입니다. 이들은 The Economist의 편집장과 대화하여 인공 지능의 미래에 대해 논의했습니다. 인터뷰 내용 GhatGPT가 다음 1.. 더보기
Whisper large v3 모델 실행하기 WSL과 Docker 상에서 Hugging Face Whisper Large v3 모델 실행하기 Whisper는 음성 인식 및 음성 번역을 위한 사전 훈련된 모델로, 많은 양의 데이터를 기반으로 학습되어 다양한 데이터와 도메인에서 잘 일반화됩니다. Whisper large-v3는 이전 모델과 비슷한 아키텍처를 가지지만 입력 데이터 표현에서 차이가 있고 새로운 위한 언어 토큰이 추가되었습니다. 이 모델은 더 많은 데이터를 사용하여 학습되었으며, 영어 전용 및 다국어 데이터를 기반으로 다양한 모델 크기로 제공되며 Hugging Face Hub에서 사용 가능합니다. https://huggingface.co/openai/whisper-large-v3 openai/whisper-large-v3 · Hugging .. 더보기
LLM 학습과정에서 RLHF 란? RLHF(Reinforcement Learning from Human Feedback) 란 RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 통해 대규모 언어 모델(Large Language Models, LLMs)을 미세 조정하는 고급 기술입니다. 이 접근 방식은 모델의 성능을 인간의 평가를 기반으로 향상시키는 데 유용하게 사용될 수 있습니다. RLHF의 과정 모델 생성: 먼저, 사전 훈련된 모델을 기반으로 초기 어시스턴트 모델을 생성합니다. 이 모델은 일반적인 언어 이해 능력을 가지고 있습니다. 세밀한 조정 단계 2 (Fine-tuning Phase 2): 이 단계에서 모델은 특정 작업에 대한 이해를 심화시키기 위해 추가적인 훈련을 받습니다. 비.. 더보기
LLM 의 기본 구조와 모델 대규모 언어 모델(Large Language Model, LLM)의 구조와 작동 원리 대규모 언어 모델(LLM)은 최근 몇 년간 인공지능 분야에서 눈부신 발전을 이루었습니다. 이 포스팅에서 LLM의 기본 구조와 작동 방식, 그리고 이 모델들이 어떻게 훈련되는지에 대해 간단히 정리합니다. 기본적인 내용은 "Andrej Karpathy" 님의 유튜브 영상의 내용을 참고 하였습니다. LLM 구조와 동작원리 LLM의 기본 구조 LLM은 크게 두 가지 주요 파일로 구성됩니다: 파라미터 파일과 이 파라미터를 실행하는 코드입니다. 예를 들어, Llama2 70b 모델은 700억 개의 파라미터를 포함하고 있으며, 이는 메타 AI에 의해 개발된 모델입니다. 이러한 파라미터는 신경망의 'Weight'을 나타.. 더보기
LLama.cpp 설치하고 실행해보기 LLama.cpp 설치하고 실행해보기 Huggingface 최신 모델인 Upstage의 SOLAR를 llama.cpp를 사용하여 실행하는 방법에 대해 알아보겠습니다. 이 예제에서 사용된 SOLAR-10.7B 모델은 107억 개의 매개변수를 가진 강력한 언어 모델로, 자연어 처리(NLP)에서 탁월한 성능을 자랑합니다. 기존의 대형 모델들과 비교하여도 뛰어난 성능을 보이며, 간단한 미세 조정을 통해 이를 더욱 향상시킬 수 있습니다. 이 튜토리얼은 WSL2에서 Ubuntu 22.04와 Python 3.10.12 환경에서 테스트되었습니다. 사전에 transformer 와 huggingface-cli 가 설치되어있음을 가정합니다. llama.cpp 설치하기 llama.cpp 소스 코드 다운로드 및 빌드 먼저, l.. 더보기
Docker에서 Transformers를 이용하여 Phi-2 모델 실행해보기 Transformers를 이용하여 로컬에서 Phi-2 모델 실행해보기 마이크로소프트 리서치 팀의 최신 언어 모델인 'Phi-2'가 지난달 'Microsoft Ignite 2023' 행사에서 발표되었습니다. Phi-2 모델은 27억 개의 파라미터를 갖추고 있으며, 이는 상대적으로 작은 모델에 속함에도 불구하고 최대 25배 크기의 대형 모델과 동등한 성능을 발휘한다고 알려졌습니다. 'Phi' 시리즈는 트랜스포머(Transformer) 기반의 언어 모델로, 첫 번째 버전인 'Phi-1'은 파이썬 코딩에서 뛰어난 성능을 보여준 13억 개의 파라미터 모델입니다. 그 후속작인 'Phi-1.5'는 일반 추론과 언어 이해 능력을 향상시켜, 작은 크기에도 불구하고 5배 큰 모델과 비슷한 성능을 제공했습니다. Phi-2는.. 더보기
작지만 강력한 Phi 모델 혁명 소형 언어 모델 혁신: Phi 1과 Phi 1.5의 탄생 Microsoft Research Redmond 연구팀이 개발한 혁신적인 언어 모델, Phi 1과 Phi 1.5에 대해 정리하였습니다. 이 모델들은 기존 대형 언어 모델의 경계를 넘어, 작지만 강력한 새로운 방향을 제시합니다. 2023 년 11 월 일본에서 열린 AI forum 에서 Sebastien 이 발표한 내용을 참고 하였습니다. https://www.microsoft.com/en-us/research/event/ai-forum-2023/agenda/ AI Forum 2023 - Microsoft Research We are living in an exhilarating era where Artificial Intelligence (AI) i.. 더보기
Ubuntu 20.04 Docker MMDetection 환경구성 Ubuntu 20.04 MMDetection 환경구성 mmdetection 는 open-mmlab 에서 개발한 computer vision 프레임워크 이다. 다양한 알고리즘 모델을 쉽게 사용할 수 있도록 미들웨어와 관련 도구를 제공한다. 이 글은 Ubuntu 20.04 에서 docker 를 이용하여 mmdetection 설치하고, 간단한 데모를 수행하는 과정을 설명한다. 테스트환경 Ubuntu 20.04.5 LTS NVIDIA GeForce RTX 3050 Ti Laptop GPU NVIDIA-SMI 515.86.01 사전작업 NVIDIA 그래픽 카드 드라이버 설치 도커를 이용하여 MMDet 을 설치하기 Docker 설치 우분투 20.04 Docker 설치는 makepluscode 의 이전 글을 참고한다.. 더보기
NVIDIA Dockerfile 빌드 시, GPG error MMdetection 도커 GPG error MMdetection 개발 환경 구성을 하는 과정에서 파이토치, CUDA, CUDNN 이 포함된 Docker 를 설치하였다. 이 Docker 를 설치하는 과정에서 GPG (GNU Privacy Cuard) 에러가 발생하여 수정하는 방법을 기록한다. NVIDIA Dockerfile 빌드 시, GPG error 테스트환경 Ubuntu 20.04.5 LTS NVIDIA GeForce RTX 3050 Ti Laptop GPU NVIDIA-SMI 515.86.01 Dockerfile 실행한 Dockerfile 은 다음과 같다. 이 file 을 통해 Docker 이미지를 받고, apt-get update 를 수행하였다. ARG PYTORCH="1.9.0" ARG CUDA.. 더보기
딥러닝으로 카메라 영상을 3D복원하는 NeRF 딥러닝으로 카메라 영상을 3D복원하는 NeRF 카메라로 촬영된 2D 이미지로 3D 상으로 3차원 복원을 연구하는 분야는 오래된것 같다. 최근에 병렬컴퓨팅 기술이 발달하고, 딥러닝 모델이 개발되고, 사회적으로 자율주행, 메타버스 등의 산업군으 뜨면서, 3D 복원 연구가 더욱 활발해지는 것 같다. 그중에서 최근에 각광받고 있는 NeRF(Neural radiance Fields) 에 대해서 알아보자. NeRF(Neural radiance Fields) 란 무엇인가 3D 복원과정에서 컴퓨터비전+딥러닝을 융합한 기술 NeRF 는 카메라로 촬영된 2D 이미지로 3D 상으로 3차원 복원하는 과정에서 전통적인 과 기술을 융합하는 것이라고 설명된다. NeRF 를 통해 3D 를 생성하는 과정에서 모델의 네트워크에서 각위치.. 더보기
[딥러닝] 미니 ImageNet 데이터셋 (4.1 GB, 40K files) Mini ImageNet dataset for deep learning DNN 모델 검증용 tfrecord 만들기 좋은 데이터셋 미니 ImageNet 데이터셋 모델 배포과정에서 사용하기 적당한 약 4만개의 파일, 4.1Gbytes 의 적당한 데이터셋 학습용 데이터셋 1000디렉토리(클래스), 34745 파일 검증용 데이터셋 1000디렉토리(클래스), 3923 파일 참고사이트 https://www.kaggle.com/datasets/ifigotin/imagenetmini-1000?resource=download ImageNet 1000 (mini) 1000 samples from ImageNet www.kaggle.com 더보기
[딥러닝] mp3 파일로 audio fingerprint 생성하기 mp3 파일로 audio fingerprint 생성하기 오픈소스로 audio fingerprint 만들어보자! https://github.com/itspoma/audio-fingerprint-identifying-python GitHub - itspoma/audio-fingerprint-identifying-python: The Shazam-similar app, that identify the song using audio fingerprints & The Shazam-similar app, that identify the song using audio fingerprints & spectrum analysis and Fast Fourier transform - GitHub - itspoma/audio.. 더보기