반도체 책
AI 반도체 혁명 2024
★★★★☆
전반부는 반도체의 역사를, 후반부는 LLM의 특징과 네이버가 만들고 싶은 반도체를 얘기한다. 쉽게 쓰긴 했으나 앞부분과 뒷부분의 난이도 차이는 어쩔 수 없는 부분. 네이버의 도전은 인상적이나 생태계를 조성하려는 노력이 이에 미치지 못하는 점은 아쉽다.
- 53 사진을 찍을 때 우리가 보는 건 1장이지만 기기는 여러 장의 사진을 찍고 그 중 잘 나온 사진을 골라준다.
- 86 에니악은 17만 4000와트, 150제곱미터였으나 인텔 4004는 17배나 빠른데 손톱만하다. 2300개 트랜지스터, 1와트.
- 89 하버드 테오도르 레빗 교수는 “고객은 0.25인치의 드릴을 원하는 것이 아니라 0.25인치 구멍을 원한다”
- 168 모델 크기, 데이터셋 크기, 컴퓨팅 자원 증가에 따라 모델의 성능이 좋아진다. 오픈AI의 스케일링 법칙. (이후 구글이 친칠라 법칙에서 실험을 통해 구체적인 값 제안)
- BERT는 모델의 사이즈를 일정 이상 늘렸을 때 성능이 크게 증가하지 않는 구간이 있었다.
- 하지만 오픈AI는 디코더 기반의 트랜스포머 모델에 무작정 학습을 하면 점점 더 좋은 결과를 얻을 수 있다는 혁신적인 발표를 내놓았다.
- 193 대역폭이 넓어지는 만큼 엄청나게 빠르게 이동하는 데이터를 정밀하게 제어하는 컨트롤러 기술도 확보해야 한다.
- 197 GTX 1060은 클럭속도가 1700 MHz, 코어 1280개. 1280 x 1700, 한 번에 2개씩 연산 x2 = 4.35 TFLOPS. 1초에 4조 3500만 번 계산
- 205 HBM에 연결된 4096개 통로에서 초당 3276기가 바이트의 데이터가 쏟아져 들어온다. 여러 통로에서 전송되는 데이터가 모두 틀림없이 도착해야 연산을 할 수 있기에 제일 늦은 데이터가 올 때까지 전부 기다려야 한다.
- 210 결국 AI 반도체는 연산기와 메모리, 이를 연결하는 통신 기술이 모두 완벽하게 갖춰질 때 제대로 된 성능을 낼 수 있다.
- 232 그록 칩으로 라마 70B를 1바이트로 돌리면 최소 300장이 넘는 칩이 필요하다. 그록랙은 전력 소모량이 70KW다. A100 DGX가 6KW, H100 DGX가 10KW.
- 249 V100은 300W, A100은 HBM2e 탑재, 2배 속도(2 TB/s), 400W. H100은 3.2 TB/s, 700W. 속도 62% 빨라졌는데 전력 75% 증가 (여기서는 메모리 속도의 증가와 전력 사용량을 얘기한다. 정확한 비교는 메모리 속도 기준이 아니라 TFLOPS 기준이 되어야 한다. 그렇지 않다면 H100 중에서도 PCI는 HBM2e라 속도가 동일하기 때문)
- 259 GPU의 스크래치패드 메모리는 CPU가 캐시를 쓰는 것과 달리 별도의 주소를 갖고 있어 프로그래머가 지정해줘야 한다.
- 260 H100, A100 별도의 코드가 존재한다고 생각해도 될 정도다. (하지만 PyTorch 등에서 내부적으로 처리하기 때문에 파이썬 레벨에서는 알아차리기 어렵다. 이 부분이 엔비디아의 가장 강력한 점)
- 288 프리필은 동일한 파라미터를 동시에 이용할 수 있는 입력 내용이 이미 많이 주어져서 계산기에 좌우, 디코드는 토큰 생성 및 파라미터 전체를 메모리를 통해 반복적 접근, 메모리 성능에 좌우.
- 301 프리필은 단일 요청으로, 디코드는 여러 요청 배치로 처리하는게 효과적이다.
- 310 2017년 MIT 로터리 티켓 가설, 175B 중 유의미한 영향을 미치는 파라미터는 1B. 나머지는 0이어도 최종 결과에 영향을 미치지 않는다. 학습을 완료하기 전에는 당첨 여부를 알 수 없다.
- 319 INT4/8는 부동소수점 표현 없이 정수 표현만을 하기 때문에 훨씬 작고 빠른 저전력의 연산기를 만들 수 있다. A100은 INT8이 FP16 (또는 BF16)에 비해 1.5배 더 빠르다.
- 321 네이버는 입력은 16비트로 내버려두고 가중치만 공격적으로 압축하는 방식이 적합하다고 판단. 대신 압축된 가중치를 푸는 과정에서 비효율을 개선할 수 있는 하드웨어 필요.
- 323 Pruning해도 균일하지 않기 때문에, 압축률이 90%라도 더 느린 경우가 허다하다.
- 329 네이버는 필요한 부분을 골라 각각의 파라미터 단위로 잘라내는 압축방식 Unstructured Pruning과 인코딩(압축)에 집중
- 324 얼마나 뺄지 미리 정하는 것이 Structured Pruning. 하지만 일괄적으로 정하면 성능 저하 발생.
- 330 GPU 성능을 끌어내기 위해 데이터 크기가 균일해야 한다. 정해진 규칙에 따른 데이터 형태 전환을 통해 블록에서 살아남은 파라미터 갯수가 통일되도록 하는 암호화를 진행했다.
- 330 입력 압축은 매우 어려움. 윗층으로 가면서 2만 배 더 큰 숫자가 중간 결과가 되기도 한다. 따라서 Weight-only Quantization에 집중.
- 333 압축된 가중치와 압축되지 않은 입력값이 그대로 연산되는 효율적인 회로 설계 필요. 가중치 복원에 필요한 복잡한 회로나 알고리즘도 필요 없고 연산기도 극단적으로 단순화하는 방법.
- 334 엔비디아는 모델 정확도에서 크게 손해보는 구조적 가지치기와 가속이 되지 않는 비구조적 가지치기의 중간 개념으로 2:4 sparsity 제안, A100 이후 적용. 하지만 LLM의 특징과 파라미터 크기 때문에 4개 파라미터마다 2개 파라미터를 없애는 방식의 구조적인 압축 기술이 적용되기 힘들다. scalability를 갖추지 못함.
- 337 GPU에서는 90% 가지치기를 진행하면 속도가 20% 느려진다. 반면 네이버 AI 반도체는 80% 빨라진다. 양자화는 50% 압축율에 도달하면 속도가 50% 느려지는데, 네이버는 2배 이상 빠르다.
- 342 엔비디아의 HBM 컨트롤 기술은 아무나 따라갈 수 있는 것이 아니다.
- 346 네이버는 모델을 4배 압축하고, DDR 메모리를 사용하며, Dequantization 없이 연산하는 구조를 연구 중.
- 350 특정 서비스에 최적화된 추론형 AI 반도체는 CUDA의 모든 기능을 굳이 구현할 필요가 없다.
- 374 엔비디아는 많은 기능을 가지고 있는 쿠다 코어를 늘리기 보다 단순 행렬곱을 잘하는 텐서 코어를 늘리고 있다. 모델이 변해도 지금과 전혀 다른 방향의 연산 방식이 필요하진 않을 것이다.
- 379 퀄컴 플래그쉽 AP인 스냅드래곤8 Gen3는 GPU 3 TFLOPS, 메모리 76 GB/s에 불과하다. A100이 300 TFLOPS, 2.2 TB/s와 비교
반도체 삼국지 2022
★★★★☆
일본에 이어 바톤을 넘겨 받는 우리나라가 맹추격중인 중국의 위협에서 벗어나기 위해 어떻게 해야하는지 제언이 담긴 책이다.
- 일본이 무너진 이유로 지나친 기술 집착도 한 가지 원인으로 꼽고 있다. 특히 한 가지 기술에 매몰되면 다른 기술로 전환하기 보다 그 기술의 극한까지 밀고 나가는 습성이 있어 변화에 대응에 늦다. 대표적으로 NAND 플래시.
- p115 반도체 5공주: NEC, 도시바, 히타치, 후지쓰, 미쓰비시
- p123 HSMC 사건
- p152 광원 역할을 하는 소재를 외부에서 미세한 크기의 방울 형태로 수만 번 떨어뜨린다. 이때 사용하는 재료는 주석^Sn^이다. 이 미세한 주석 방울에 이산화탄소 레이저에서 나온 초강력 펄스 형태의 전자기파가 부딪히면 순간적으로 주석은 여기된^excited^ 플라스마를 반들어내고, 이 플라스마는 불안정하기 때문에 다시 특정 파장의 전자기파를 방출하면서 흩어진다. 플라스마의 발생 효율을 높이고, 결함을 제거하며, EUV 광원 수율을 높이기 위해, 노광 장비 내부는 높은 진공도를 유지하되, 플라스마 발생 부분만 플라스마 흩어짐을 제어하기 위해 미세하게 조정한 압력의 순수 수소 가스를 채워넣는다.
- p155 200와트급 EUV를 기준으로, 대략 500~600킬로와트나 소모된다. 단 1대의 노광장비에서 소모되는 전기다. 안정적인 생산 속도의 유지를 위해서는 소모 전력이 1메가와트까지도 잡힐 수 있다. 보통 반도체 패터닝 라인 하나에 이런 EUV 노광 장비가 적어도 10대가 들어가야 하니, 공장 하나가 홀로 10메가와트 이상의 전기를 소모할 수도 있는 셈이다. 이는 소형 화력 발전기 한 개의 발전 용량과 맞먹는 규모다. 만약 누군가 EUV와 성능은 비슷한데 소모 에너지를 1/10 수준으로 줄여서 에너지 효율을 1퍼센트에 가깝게만 만들어도, 시장을 지배할 수 있을 것이다.
- p169 EUV 역시 글로벌 반도체 공급망의 예외는 아니다. 미국이 27퍼센트, 네덜란드가 32퍼센트, 그 외 유럽 국가(주로 영국과 독일)들이 14퍼센트, 일본이 27퍼센트 정도의 부품이나 장비 소재를 나눠 공급하고 있다.
- p273 ASML과 자이스의 관계는 일반적인 갑-을 관계와는 다소 결이 다르다. 처음부터 프로젝트를 같이 시작했고, 양사의 엔지니어가 단기적으로나마 양사에서 특정 직무를 겸직하는 경우도 있었고, 특허를 공동으로 출원하는 경우도 있었다. 특히 EUV 개발과 관련해서는 양사가 같이 명운을 걸고 30년의 파트너십을 유지했는데, 그것은 서로에 대한 신뢰가 보장되지 않고는 불가능한 일이었다.
반도체 넥스트 시나리오 2021
★★★☆☆
현재 반도체 기술보다 제목대로 넥스트, 미래 기술에 대한 얘기가 많다. 또한 유튜버가 쓴 책 답게 다소 과장된 문체로 서술된 내용이 많기 때문에 미래 기술에 대한 객관적인 시각이 필요하다.
반도체 오디세이 2023
★★★☆☆
많은 부분을 다루고 있지만 지나치게 옛날 얘기나 반도체의 거의 관련이 없는 부분까지 다루고 있고, 기술을 언급할 때 상세한 설명보다는 용어와 이에 대한 정의, 관련 회사를 무미건조하게 나열하여 흥미가 떨어진다. 사전 지식이 없다면 내용을 이해하기도 힘들다. 따로 결말도 없다. 무미건조하게 기술과 관련 회사 정보를 나열하다가 끝난다.
- 2022년 반도체 시장 규모는 5,735억 달러. 세계경제규모 100.2조 달러의 0.57% 수준. 아직 0.6%의 비율을 넘어선 적이 없다. 석유/가스 산업은 5조 달러, 완성차 산업은 3조 달러 p381
- 반면 한국 GDP 1.67조 달러, 반도체 수출액은 1,292억 달러로 GDP의 7.7%에 달한다. p382
- 이 책에서는 다른 분야에 비해 규모가 작다고 언급했지만, 같은 내용을 “교양으로 읽는 반도체 상식”에서는 2021년 시점 일본 내 생산량만 연간 5조 엔, 세계 전체로는 72조 엔에 달하는 거대한 시장이다 로 표현.
교양으로 읽는 반도체 상식 2022, 2023
★★★☆☆
『반도체 오디세이』가 지나치게 딱딱하게 기술 소개와 회사 정보를 나열하는데 그친다면 이 책은 실제로 반도체를 만드는 과정을 소개하고, 역사를 알기쉽게 소개한다. 일본책이다 보니 반도체 협정을 왜 맺었는지에 관한 언급은 전혀 없으며, 단순하게 협정으로 인해 일본 반도체가 몰락했다고만 언급한다.
Last Modified: 2024/10/22 22:51:07