The Missing Papers

About Tumblr

빅데이터 책

구글은 빅데이터를 어떻게 활용했는가 ^{2013, 2015}
빅데이터 시스템 구축 가이드 ²⁰¹⁵
차세대 빅데이터 플랫폼 Data Lake ²⁰²¹

구글은 빅데이터를 어떻게 활용했는가 ^{2013, 2015}

★★☆☆☆
사례 나열이 너무 많고, 서로 연결성이 부족하여 이야기가 자꾸만 끊어진다. 저자가 사례만 잔뜩 찾아와 이어 붙인 느낌이다.

빅데이터 시스템 구축 가이드 ²⁰¹⁵

★★☆☆☆
어떤걸 설치해서 사용하면 된다는 내용으로만 가득하고, 책 전반적으로 인터넷에서 쉽게 찾아볼만한 내용들로 평이하다.

p280. Hive는 RDB처럼 실시간 쿼리나 빠른 쿼리를 처리하지 못한다. 심지어 작은 데이터를 조회할 때 Hive는 수 분 이상 걸리기도 한다. Hive는 실시간을 목적으로 설계되지 않았으며, 확장과 사용 편의성에 중점을 두었다. 내부적으로 보면 하둡은 MapReduce 처리가 기본이므로 Hive는 내부 쿼리를 MapReduce 태스크로 변환하여 실행할 뿐이다.

차세대 빅데이터 플랫폼 Data Lake ²⁰²¹

★★☆☆☆
Data Lake를 소개한 흔치 않은 책이나 내용이 두서가 없고, 신간임에도 불구하고 편집이나 글의 완성도가 아쉽다.

p54. Data Lake 플랫폼은 Hadoop이라는 빅데이터 플랫폼을 통해 가장 잘 구현될 수 있다. Hadoop 플랫폼을 전사 레벨로 확장한 버전이 바로 Data Lake 플랫폼이라고 결론 지을 수 있을 것이다.
p143. Data Lake의 활성화를 위해 Gamification을 도입하라고. Data Lake를 활용할 때 마다 사용자에 점수가 부여되고, 이를 다른 사용자의 점수와 비교하게 하는 것이다.

Last Modified: 2021/11/07 01:06:47

The Missing Papers is a collection of Papers I have written.
© 2000 - 2024 Sang Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.