연랩

[Microsoft AI School 6기] 12/16(1일차) 정리 - 생성(Generative AI) 소개 본문

MS AI school 6기

[Microsoft AI School 6기] 12/16(1일차) 정리 - 생성(Generative AI) 소개

parkjiyon7 2024. 12. 16. 21:39

생성 AI(Generative AI) 소개

 

생성 AI는 인공지는 분야의 하나로서, 이미지 텍스트, 음악, 비디오 등 새롭고 독창적인 콘텐츠를 만들 수 있는 모델과 알고리즘을 연구하는 분야이다.

 

ex) Sora-AI로 비디오를 만듦

 

생성형 AI

 

- 머신러닝: 머신이 알아서 규칙을 찾아서 추후에 답을 제공

- 딥러닝: 머신러닝에서는 통계적인 기법을 사용하는 것과 다르게 딥러닝은 인간의 두뇌를 모방하고자 함, 레이어에 노드를 두고 가중치를 쌓아가는 것이 핵

- 생성형 AI: 딥러닝 기술 중 하나

 

 

생성 AI의 역사

단어 그대로 인공지능이 무엇인가를 ‘만든다’는 것에 주목하는 인공지능 모델

 

과거에도 무엇인가를 ‘생성’하는 인공지능 존재, 그러나 2014년 Generative Adversarial Network(GAN)의 등장으로 본격적인 생성형 AI의 시대가 시작

 

생성형 AI의 역사

 

기억에 남는 점

 

앨런 튜링: 인간과 구분이 가지 않으면 AI다 -> 튜링테스트

2022년 11월 Chat-GPT가 일반인에게 풀림

 

- MyLens.AI를 사용하면 타임라인이나 마인드맵을 쉽게 만들 수 있다

(Chat-GPT는 잘 못 그림...)

 

 

Generative AI의 기술적 배경 및 특징

 

인코딩과 디코딩

 

- 인코딩: 머신 러닝은 일반적으로 데이터를 입력 받음(숫자, 범주 데이터 등), 이렇게 입력 받는 것을 인코딩이라 부름

- 디코딩: 생성 AI의 경우 인공지능이 글, 그림 등의 데이터를 출력

 

 

Large Language Model/Deep Learning

 

생성 AI는 LLM 기반 즉, 딥러닝 인공 신경망에 기반

 

LLM

 

- 사진에 있는 선은 가중치

- layer가 깊어질 수록 머신은 더 깊게 생각할 수 있음

- layer의 노드 수가 70개 이상일 수 있음

- layer를 늘리면 동시에 처리할 수 있는 데이터가 크다

- 모델 스케일을 키우면 어느 순간 기하급수적으로 정확도가 증가함

 

 

인공지능 전용 하드웨어

 

- GPU는 병렬 처리가 가능

- 딥러닝 알고리즘은 병렬 처리를 하기에 좋은 구조를 가지고 있기 때문에 GPU를 활용

- NVIDA는 GPU를 인공지능 전용 하드웨어로 활용 하는 방안(CUDA)를 제안하여 인공지능 전용 하드웨어의 대표적인 기업으로 자리매김

 

 

LLM vs sLM

 

LLM을 이용하여 생성 AI가 발전하였지만, 과도한 컴퓨팅 자원을 요구 하는 한계가 있음

->비교적 간단하거나 특정한 업무에 활용할 수 있는 sML(Small Language Model)이 등장

 

 

모라벡의 역설

 

미국의 로봇 공학자 한스 모라벡

'어려운 일은 쉽고, 쉬운 일은 어렵다.(Hard problems are easy and easy problems are hard)'

-> 컴퓨터와 인간의 차이를 역설적으로 표현

 

 

생성형 AI의 문제와 한계

 

Hallucination

- 생성된 결과물의 품질 및 정확성에 대한 검증이 어려움

- 주로 전문가의 영역에서 나타남

- 요즘에는 검색으로 크로스 체크 해주는 모델이 나타나기도..

 

Bias in Bias out

- 학습된 데이터에 존재하는 편견이 재현되고 확대될 수 있음

 

Copy right& IP infringement

- 학습에 사용되는 데이터에 저작권 침해 요소가 있음

 

Data Privacy, Confidentiality

- 개인 식별 정보를 포함한 데이터 세트로 훈련된 AI 모델->개인 식별 정보 유출 가능

 

이외 문제점

추론형 AI가 아닌 언어 모델인 LLM들은 일반적으로 수학 문제 해결에는 뛰어난 능력이 없음

 

ex)

1)말 도둑 문제

: 말 한 마리를 도둑 맞았다. 주인은 도둑이 미리 37리를 도망 갔을 때 그것을 발견하고 도둑을 쫓기 시작햇다. 주인이 145리를 이동한 후에도 도둑은 여전히 23리 앞에 있다는 것을 알았다. 주인이 도둑을 잡을 때까지 몇리를 더 이동해야 하는가?

-> GPT o1은 해결 가능

 

2) 4, 4, 2, 6 네 숫자와 사칙연산을 써서 24를 만들어라

마찬가지로 수학 추론 문제이므로 틀린 답을 제시하는 겨우가 많다

 

3)Strawberry test

r의 개수를 잘 세지 못하거나 비교를 잘 하지 못함

-> Transformer model은 단어 단위로 학습하므로 글자 하나하나에 대한 인지가 부족함

 

4) Wordle 게임

https://www.nytimes.com/games/wordle/index.html
 

Wordle - A daily word game

Guess the hidden word in 6 tries. A new puzzle is available each day.

www.nytimes.com

 

해당 게임을 LLM에 시키면 잘 못한다는 사실을 알 수 있음

 

 

 

생성 AI의 성장과 확산

 

Dealroom이라는 사이트에서 생성 AI 분야에서 주목할 만한 스타트업 목록 확인 가능

 

 

AI도구를 검색할 수 있는 사이트

 

1) future tools

- 주로 필터링을 통해 원하는 검색 가능

 

2) Viggle

 

3) Topai

- AI 도구들 검색 가능

 

4) Hugging Face

- AI 및 머신러닝 모델의 플랫폼 서비스

- 다양한 AI 보엘과 데이터 세트를 공휴하고 협업할 수 있는 허브 역할 수행

- 미리 generation AI 체험 가능

 

참조) GPT Store

Chat-GPT를 활용하여 새로운 서비스를 공개하고 수익을 낼 수 있는 GPT Store가 오픈

ex) 유명 연예인 말투로 대답해주는 GPT

 

 

산업계에 확산되고 있는 생성 AI

 

생성 AI는 고객 응대 챗봇, 이미지 생성 등을 넘어 여러 산업에서 다양한 분야에서 사용될 것으로 기대된다.

ex) Automotive, Healthcare, Manufacturing, Retail & E-commerce, Media and Entertainment 등

 

Top Ranked Verticals in Generative AI enconomy

 

오른쪽으로 갈수록 인기 없음...

 

 

Azure OpenAI  실제 적용 사례들

 

Azure에서 제공하는 OpenAI 서비스를 사용하여 생성 AI 활용하는 사례 증가

 

ex) tomtom, Nuance, 우아한 형제들, NC Dinos 등

- NC Dinos의 경우 구장을 찾은 팬들에게 '나와 닮을꼴 선수 찾기 서비스 제공'-> 홍보 효과

 

현재 대표적인 파운데이션 모델 및 이를 활용한 서비스들

대표적인 파운데이션 모델 및 이를 활용한 서비스들

 

AGI란?

 

인공 일반 지능(Artificial General Intelligence) 혹은 강 인공지능

- 이에 대한 긍정적인 견해(이루어질 수 있을 것이다)와 부정적인 견해(불가능 하다)가 있음

 

 

 

챗봇 기반 생성 AI

Transformer Model

 

- 2017년 Google 논문인 'Attention is all you need'에서 제시한 모델이며 Chat-GPT도 사용하는 대표적인 LLM 모델

현재 LLM 모델들은 대부분 transformer model 사용

Transformer Model

 

핵심 단어 'Attention'

 

ex) '날씨가 어떤지 알려줘'라는 문구를 받으면

 

인코더에서 단어를 분리해서

self attention에서 ‘날씨’가 가장 중요한 것임을 알려줌

디코더에서 한 단어 씩 생성하게 됨

다음에 나타날 단어 중 확률이 가장 높은 것을 softmax에서 출력하게 됨

 

 

Chat-GPT 사용하기

 

이미 사용하던 기술들도 소개되어 있었지만, 새로 알게된을 소개해 보겠다

 

새로 알게 된 기술

 

GPTs: 자신만의 GPTs를 만들어서 사용가능

(안타깝게도 유료 버전만 가능하다...ㅠ)

- 대화 스타터도 지정 가능

 

 

프롬프트 잘 작성하기

 

기본가이드

 

- 인간과 대화 하듯이 하며, 상황을 설정하고 사용자의 직업 등 정체성을 알려주어 보다 구체적으로 하는 것이 중요

- 'Chain of Thought' 기법 활용

 

1) Break Down Your Question: 질문할 내용을 나누기

2) Be Specific, Include Context: 구체적으로, 문맥 포함하기

3) Give feedback: 답변에 대한 피드백 제시

4) Hierarchical Prompting: 일반적인 내용에서 구체적으로

5) Comparative Prompting: 비교하도록 유도

6) Thought process prompting: '생각'하도록 유도

7) Sequential prompting: 진행상황이나 결과를 물어보기

 

프롬포트 작성

 

답안 예시를 주는 것: One-shot prompting

정확한 답을 얻기 위해서는 One-shot promptin이나 위의 chain-of-thought 기법을 사용해보는 것을 추천

 

 

하이퍼파라미터 설정

 

머신러닝에서 하이퍼파라미터(Hyperparameter)는 데이터에서 습득하는 것이 아닌, 연구자가 제어하는 속성을 뜻한다

Chat-GPT에서 하이퍼파라미터 설정을 통해 사용자가 원하는 결과에 보다 근접한 내용을 얻을 수 있음

 

하이퍼파라미터 설정

 

 

Microsoft Copilots

 

Chat-GPT 기능이 Microsoft의 여러 기능에 결합된 형태로 존재하는데, 이를 모두 Copilot이라 부른다

즉, Microsoft Copilots는 하나의 제품이 아님

 

웹 기반 대화형 AI를 중심으로 설명하도록 하겠다

 

1) 웹에서 Micrsoft Copilot이라 검색해서 들어감

브라우저 사이트에 접속해 웹에서 대화하는 것을 원래는 Bing Chat이라 했는데, 현재는 Microsoft Copilot이라 부름

단독으로 사용이 가능하며 웹페이지에 연동하여 사용할 수도 있음

 

Microsoft Copilots

 

2) Edge Copilot

Microsoft Edge로 접속->우측 상단의 Copilot 아이콘 클릭하면 탭 생성

 

Edge Copilot

 

- Edge copilot은 YouTube 동영상 요약 기능 제공

- 전체 동영상의 내용을 요약해서 짧은 시간에 확인 하는 데 유용

- 그 외 문서 요약 등의 기능도 제공

 

 

언어 모델의 웹 검색 서비스

 

최근의 LLM 서비스들은 답변의 정확성을 높이기 위해 검색 엔진 기능과 언어 모델을 결합하는 추세임

 

1) Perplexity

 

Perpexity 웹 검색

 

 

2) Chat-GPT 웹 검색 기능 

 

Chat-GPT 웹 검색 기능

 

 

 

언어 모델의 협업 도구

 

일부 LLM들은 사용자와 LLM이 협업하여 편집할 수 있는 기능을 제공

 

1) Chat-GPT Canvas

Chat-GPT Canvas

 

 

2) Claude Artifacts

LLM과 협업하여 편집할 수 있으며 코딩 가능

 

Claude
Claud로 만든 테트리스 게임

 

 

 

언어 모델 응용 서비스

Whimsical

: Diagram 협업 도구

 

Whimsical로 제작한 다이어 그램

 

 

Rytr

: 글쓰기 협업 도구

 

Rytr

 

- 다양한 종류의 글과 어투로 생성 가능

 

 

Gamma

:글쓰기 도구

프레젠테이션 문서 작성을 도와 주는 대표적인 생성 AI 서비스

 

Gamma를 활용하여 만든 프레젠테이션

 

 

Dishgen

: 음식 재료와 상황을 바탕으로 조리 방법을 알려주는 요리 레시피 생성 서비스

 

Dishgen으로 만든 레시피

 

 

 

이미지 생성 AI

 

인공지능의 이미지 생성 방법

 

대표적인 이미지 생성 알고리즘-VAE(Variational Autoencoder)

 

VAE

 

- AutoEncoder는 고차원의 데이터에 대해서 차원을 축소

- 차원 축소 -> 데이터 내의 연관성 찾기가 상대적으로 수월

- Variational Auto Encoder는 디코딩 과정을 통해 이미지 생성

단점: 이미지가 흐릿하게 생성될 수 있음

 

 

대표적인 이미지 생성 알고리즘-GAN(Generative Adversarial Network)

 

- Ian Goodfellow가 발표

- 최근 생성 AI의 도화선이 된 중요한 알고리즘

 

GAN

 

- 생성자와 판별자가 경쟁적으로 학습하며 함께 발전하는 구조

 

- 생성자:

  입력받은 랜덤한 노이즈를 학습하여 가짜 데이터 생성

  판별자가 이 데이터를 실제 데이터라고 믿도록 속이는 것이 목적

- 판별자:

  입력받은 데이터가 실제 데이터인지 생성자가 만든 데이터인지 판별

  생성자가 만든 가짜 데이터를 정확히 가려내는 것이 목적

 

 

대표적인 이미지 생성 알고리즘-Diffusion Model

 

- Stable Diffusion으로 유명해짐

- DALL-E, Midjourney, Stable Diffusion과 같은 주요한 이미지 생성시스템에서 사용

 

Diffusion Model

 

원본 데이터를 무작위로 만드는 과정을 역으로 추적하여 새로운 데이터 생성

 

1. 원본 데이터에 노이즈를 추가하여 데이터를 diffuse

2. 이 과정을 여러 단계에 거쳐서 수행 -> 원본 데이터는 균일한 노이즈 분포로 변함

3. 이후, 이 과정으로 역으로 추적하여 원본 데이터를 재구성

4. 이 재구성 과정에서 모델은 원본 데이터와 유사한 새로운 데이터 생성

 

정리

순방향(노이즈 추가)

: 데이터 분포를 점진적으로 단순화(노이즈화) 하여 학습하기 쉬운 상태로 만듦

역방향(노이즈 제거)

: 단순화된 분포(노이즈)를 복잡한 데이터로 복원하며, 데이터 생성 능력을 학습

 

 

대표적인 Image Generation AI 서비스

 

대표적인 Image Generation AI 서비스

 

이미지 생성의 품질

 

- 반복되는 세세한 표현에 어려움이 있음

ex) 사람 손가락, 피아노 건반, 전광판 등

 

 

 

 

오늘의  간단한 후기

 

AI에 대해서 이해하기 쉽게 설명해주시고 여러 가지로 실습을 해 볼 수 있는 기회여서 좋았다. 내가 생각 했던 것보다 여러 가지 AI 툴들이 있어서 이를 미리 알았더라면 발표나 과제할 때 유용했을 것이라는 생각이 들었다.(1학년 교양에서 이런거 했으면 좋겠다...) 그리고 참여하시는 분들도 적극적으로 참여 하고 질문하면 서로서로 돕는 점이 좋았다. 강사님도 질문에 적극적으로 대답해주셔서 감사했다 

 

 

 

출처

 

[1] A. Wagh, "What’s Generative AI? Explore underlying layers of Machine Learning and Deep Learning," Medium, Dec. 2023. Available: https://medium.com/@amol-wagh/whats-generative-ai-explore-underlying-layers-of-machine-learning-and-deep-learning-8f99272e0b0d. Accessed: Dec. 16, 2024.

위와 같이 작성하면 IEEE 스타일로 적절히 정리할 수 있습니다.

[2] Queensland Brain Institute, "History of artificial intelligence," University of Queensland, 2024. Available: https://qbi.uq.edu.au/brain/intelligent-machines/history-artificial-intelligence. Accessed: Dec. 16, 2024.

[3] Microsoft, "Interacting with OpenAI models," Microsoft Workshop Documentation, 2024. Available: https://microsoft.github.io/Workshop-Interact-with-OpenAI-models/llms/. Accessed: Dec. 16, 2024.

[4] MarketsandMarkets, "Generative AI use cases," MarketsandMarkets, 2024. Available: https://www.marketsandmarkets.com/industry-practice/GenerativeAI/genai-usecases. Accessed: Dec. 16, 2024.

[5] Microsoft, "NC Dinos: Transforming media and entertainment with Azure," Microsoft, 2024. Available: https://www.microsoft.com/KO-KR/customers/story/1444543738602986229-nc-dinos-media-entertainment-azure-en-korea. Accessed: Dec. 16, 2024.

[6] The Average Gal, "Transformer architecture simplified," Medium, Dec. 2023. Available: https://medium.com/@theaveragegal/transformer-architecture-simplified-3fb501d461c8. Accessed: Dec. 16, 2024.

[7] A. Vaswani, N. Shazeer, N. Parmar, L. Uszkoreit, J. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, "Attention is all you need," in Proc. of the 31st International Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA, 2017, pp. 6000–6010. Available: https://arxiv.org/abs/1706.03762.

[8] W. Adan, "How to make ChatGPT smarter: Chain-of-thought prompting," Medium, Dec. 2023. Available: https://medium.com/@wadan/how-to-make-chatgpt-smarter-chain-of-thought-prompting-bd796efa1e03. Accessed: Dec. 16, 2024.

[9] 서울디지털재단 ChatGPT 활용연구 TFT, ChatGPT 활용사례 및 활용 팁. 서울디지털재단, 2024.

[10] ProServeIT, "The complete guide to Microsoft Copilot," ProServeIT Blog, 2024. Available: https://www.proserveit.com/blog/complete-guide-microsoft-copilot. Accessed: Dec. 16, 2024.

[11] Gaussian37, "8.4. Generative deep learning," Gaussian37 Blog, 2024. Available: https://gaussian37.github.io/deep-learning-chollet-8-4/. Accessed: Dec. 16, 2024.

[12] V. Flux, "GAN vs VAE: Differences, similarities & examples," Vitalflux, 2024. Available: https://vitalflux.com/gan-vs-vae-differences-similarities-examples/. Accessed: Dec. 16, 2024.

[13] Stable Diffusion Art, "How Stable Diffusion works," Stable Diffusion Art, 2024. Available: https://stable-diffusion-art.com/how-stable-diffusion-work/. Accessed: Dec. 16, 2024.

 

-If any problem for references, or any questions please contact me by comments.

-This content is only for recording my studies and personal profiles

 

본문의 내용은 학습과 개인 profile 이외의 다른 목적이 없습니다

출처 관련 문제 있을 시 말씀 부탁드립니다

상업적인 용도로 사용하는 것을 금합니다

본문의 내용은 MS AI School 6기의 강의 자료 및 수업 내용을 담고 있습니다.

반응형