DALL·E 2란?

DALL·E 2는 텍스트 설명으로 이미지를 생성하는 인공지능 프로그램으로 리서치 기업인 OpenAI가 29일 밝혔다.

GPT-3 변환기 모델의 120억 매개변수 훈련 버전을 사용하여 자연어 입력을 해석하고 해당 이미지를 생성합니다. 예를 들어 '작은 강아지의 흑백 사진'이라는 문장이 제공되면 치와와의 흑백 이미지를 올바르게 렌더링합니다.

이 시스템은 완벽하지 않습니다. 때때로 해석하기 어렵거나 완전히 잘못된 이미지를 생성합니다. 예를 들어, '외발자전거를 타고 화산 위를 줄타는 사람'의 이미지를 생성하라는 요청을 받았을 때 전경에 작은 인물이 있는 물 위의 일몰 이미지(제 생각에는 아름답지만)와 전혀 관련이 없는 이미지를 생성했습니다. .

그래도 결과는 인상적이며 OpenAI는 DALL·E 2가 '전문 인간 아티스트의 품질에 필적할 수 있는 텍스트 설명에서 이미지를 생성하는 최초의 AI 모델'이라고 말합니다.

이 시스템은 OpenAI에서 스크랩하고 선별한 인터넷의 약 130만 이미지와 캡션으로 구성된 텍스트-이미지 쌍의 데이터 세트에서 훈련되었습니다. 훈련 데이터는 텍스트 설명에서 이미지를 생성할 수 있도록 GPT-3 모델을 미세 조정하는 데 사용되었습니다.

OpenAI는 시스템이 추상적, 구체적 또는 시적 설명을 포함하여 광범위한 텍스트 설명에서 '고품질' 이미지를 생성할 수 있다고 말합니다.

치와와 예제 외에도 DALL·E 2에서 생성된 이미지의 다른 예로는 아돌프 히틀러의 올바르게 렌더링된 초상화, 야채로 만든 용 이미지, 토스트로 만든 모나리자 이미지가 있습니다.

이 시스템은 또한 'floof'(만들어진 동물) 또는 'tulpa'(사고 형태)와 같이 존재하지 않는 것들의 이미지를 생성할 수 있습니다.

전반적으로 결과는 인상적이며 OpenAI는 시스템이 '텍스트 설명에서 이미지를 생성하는 새로운 가능성을 열어준다'고 말합니다.

전자 2에서 이것 CLIP 시스템 텍스트 정보를 시각적 정보로 변환합니다. 이는 입력 텍스트가 제공되면 먼저 기계 입력으로 변환된 다음 시스템에서 처리되고 마지막으로 인코딩된 데이터를 이미지로 변환하는 디코더로 전달된다는 것을 의미하는 인코더-디코더 패러다임입니다.

DALL E 2 란 무엇입니까?

DALL·E 2란?

완전히 새로운 시각 효과를 만들기 위해 구를 사용하는 생성 언어 모델인 DALL·E의 최신 세대입니다. DALL E 2는 거대한 3.5V 모델이지만 GPT-3만큼 거대하지는 않습니다. 흥미롭게도 이전 모델(12B)보다 가볍습니다. DALL·E 2는 더 큰 크기에도 불구하고 DALL·E 2보다 설명 정렬 및 사실적 측면에서 70% 더 우수합니다.

DALL.E 2- 예제와 함께 초보자를 위한 설명

구체적으로 DALL·E 2는 자연어 처리를 위한 딥러닝과 이미지 생성을 위한 컴퓨터 비전을 결합한 계층적 조건부 텍스트 이미지 합성 모델이다. 목표는 두 모델을 훈련시키는 것이며 훈련 세트는 한 쌍의 사진과 설명으로 구성됩니다. 첫 번째는 서면 제목이 주어지면 CLIP 이미지 포함을 생성하도록 훈련될 수 있는 선험적입니다. 그런 다음 CLIP 이미지(및 캡션이 있는 경우)를 삽입할 때 훈련된 이미지를 생성할 수 있는 디코더가 있습니다.

DALLE 2는 인터넷에서 캡션이 포함된 수억 장의 사진을 사용하여 학습되며, 이러한 이미지 중 일부는 모델이 학습한 내용을 변경하기 위해 제거되고 다시 섞입니다. 여러 이미지 옵션을 검색합니다. CLIP 첨부 파일 그런 다음 사용하십시오 디코더 그들 각각을 통과하십시오. 그런 다음 사용자의 입력이 주어진 모든 정보의 흥미로운 조합을 생성합니다.

예 DALL은 2입니다.

DALL·E를 이해하기 위해 약간의 게임을 해봅시다. 다음 세 단계로 나누어 보겠습니다.

무지개, 구름, 유니콘이 푸른 하늘을 날고 있다고 상상해 보세요. 상상 속의 그림이 어떨지 상상해보세요. 사람은 이미지 임베드의 완벽한 아날로그에 가장 가까운 존재이며 방금 머리에 떠오른 사진이 그 완벽한 예입니다. 최종 제품에 대해서는 추측만 할 수 있지만 무엇이 포함되어야 하는지에 대한 좋은 아이디어가 있습니다. 선험적 모델은 독자를 문구의 단어에서 상상 속의 장면으로 안내합니다.
이제 그리기를 시작할 수 있습니다. unCLIP이 하는 일은 머릿속 그림을 실제 스케치로 변환하는 것입니다. 이제 동일한 기본 통계와 완전히 새로운 시각적 스타일을 사용하여 동일한 설명에서 다른 캐릭터를 정확하게 다시 생성할 수 있습니다. DALL·E 2는 이러한 방식으로 포함된 기존 이미지에서 고유한 이미지를 생성할 수도 있습니다.
당신이 만든 스케치에 주목하십시오. '구름 한가운데 유니콘이 있고, 하늘에는 무지개가 뜬다'라는 묘사를 스케치하면 이렇게 됩니다. 이제 이미지와 텍스트를 검토하여 다른 항목(태양, 집, 나무 등)을 가장 잘 나타내는 것이 무엇인지, 주제, 스타일, 색상 등을 가장 잘 나타내는 것이 무엇인지 결정합니다. CLIP이 하는 일은 특성을 인코딩하는 것입니다. 텍스트와 이미지.

이제 DALL-E가 무엇인지 알았으니 다음 섹션으로 이동하여 그 기능을 이해해 봅시다.

팁: DALL-E-2 AI 서비스로 사실적인 이미지를 만드는 방법

특징 DALL E 2

아래는 DALL·E 2의 사양입니다.

변형
착색
텍스트 차이

그들에 대해 자세히 이야기합시다.

Word 2010에서 명함을 만드는 방법

1] 변형

DALL·E 2는 단순히 문장을 이미지로 번역하는 데 그치지 않습니다. OpenAI는 강력한 CLIP 임베딩 덕분에 주어진 서명에 대해 다른 결과를 생성하는 생성 프로세스를 실험할 수 있습니다. CLIP이 '마음'에서 '보는' 것은 입력에서 중요하다고 생각하는 것(모든 이미지에 대해 동일하게 유지됨)과 교체할 수 있는 것(다른 이미지에 대해 변경됨)입니다. 가능할 때마다 DALL·E 2는 '의미 있는 정보... 및 미적 측면'을 모두 유지합니다.

2] 채색

DALL·E 2는 자동 채우기로 기존 사진을 수정할 수 있습니다. 다음 예에서 왼쪽 이미지는 원본 이미지이고 가운데와 오른쪽 사진은 요소가 다른 위치에 그려져 있습니다. DALL·E 2는 픽쳐 스타일에 추가 요소를 매칭합니다. 또한 텍스처와 반사를 업데이트하여 새 요소를 반영합니다.

읽다 : ChatGPT로 무엇을 할 수 있나요?

3] 텍스트 차이

DALL·E 2는 텍스트 차이를 사용하여 이미지를 변환합니다. DALL·E 2에는 개체를 수정할 수 있는 고급 보간 기능도 있습니다. 한 트위터 사용자는 자신의 iPhone을 '최신화 해제'할 수 있었습니다. twitter.com 그것을 확인하기 위해.

이러한 기능이 마음에 들면 다음으로 이동하기만 하면 됩니다. openai.com 그런 다음 등록하십시오. 새 계정을 만들거나 기존 Microsoft 또는 Google 계정을 사용하여 가입할 수 있습니다. 그렇게하면 무료 크레딧을 얻을 수 있으며 더 원하면 비용을 지불해야합니다.

다음은 DALL·E 2의 기능 중 일부이며 훌륭한 사용 사례가 많지만 항상 AI 도구에 너무 의존하지 않는 것이 좋습니다. 결국, 그것들은 작업을 수행하는 데 사용되는 도구일 뿐이며 결코 사람의 감성 지능을 대체할 수 없습니다.

또한 읽으십시오: 최고의 Deepfake 앱, 소프트웨어 및 웹사이트.