검색 책

자연어 텍스트 처리를 통한 검색 시스템 구축 2013, 2015

NLP 관점의 검색 시스템 구축에 관한 책

  • p96 1975년에 처음 소개된(Salton 1975) 벡터 공간 모델은 문서에 출현한 단어를 n차원 선형 공간에 매핑하는 대수적 모델이다. 출현 빈도로 표현. VSM은 term이 dimension 차원이 된다.

Relevant Search 2016

★★★☆☆
ES 기반의 다양한 랭킹 기법을 설명한다.

엘라스틱 스택 개발부터 운영까지 2021

★★★★☆
Elastic Stack의 개념부터 역사, 각 사용법을 일목요연하게 소개한다. 국내서라 읽기 편하고 잘 설명하고 있어 입문서로 매우 유용하다. 이 페이지의 내용도 이 책의 상당 부분을 참고했다.

엘라스틱서치 실무 가이드 2019

★★★★☆
국내에 출시된 엘라스틱서치 책 중 가장 고급서다. 설치 관련 내용이 자세하지 못하고 바로 넘어가는데, 이 때문에 초보자들이 첫 장 부터 설치가 안된다며 별 1개 평가로 혹평을 하고 있어 안타깝다. 실제 책 내용은 es를 실무에서 오랫동안 다뤄야만 알 수 있는 고급 노하우로 가득하다. 한글 처리 내용도 풍부하고 후반에는 인프라 운영과 관련한 커널, JVM 셋팅 등 고급 주제로 단순히 매뉴얼을 따라 적은게 아니라 운영에서 얻은 노하우로 구성되어 있다. 훌륭한 내용에도 불구하고 제공되는 코드의 품질이나 완성도에 아쉬움이 있어 별 5개는 주지 않았다.

  • p486. 하나의 샤드는 문서 수가 20억 개 정도이고 인덱스는 최대 1024개까지 샤드를 가질 수 있기 때문에 이론적으로 최대 문서 수는 약 2조 개다.
  • p491. 스트림을 이용하면 언어 차원에서 손쉽게 멀티 코어로 함수를 동작시킬 수 있다. 람다를 이용해 일종의 맵리듀스로 동작한다.
  • p499. 힙 사이즈 1G가 디폴트인데 실제 운영에서는 더 커야 한다.
  • p603. _cat API는 콘솔 친화적이다.
  • p619. ES는 최초 실행시 bootstrap checks 과정을 거친다.

기초부터 다지는 ElasticSearch 운영 노하우 2021

★★★★☆
책 제목대로 인프라 운영에 촛점을 맞춘 책으로 실제 카카오에서 인프라를 운영했던 강진우님이 집필. IR에 관한 내용은 거의 없고, 대용량 ES 클러스터를 직접 운영할 때 참고하기 좋은 책이다.

시작하세요! 엘라스틱서치 2015

★★☆☆☆
Elastic에 근무하는 저자의 상세한 가이드지만 실무 경험을 기반으로 쓴 내용이 아니고, 마치 매뉴얼을 읽는듯 명령어 나열에 그치고 있어 공식 매뉴얼을 보는 것에 비해 잇점을 찾기 어렵다. 인터넷 시대에 매뉴얼 형태의 책은 더 이상 의미가 없다.

검색을 위한 딥러닝 2018, 2020

★★★☆☆
흥미롭지만 딥러닝 이전부터 자주 쓰이던 일반적인 내용이다.

  • ch3: RNN을 이용한 쿼리 확장

Last Modified: 2023/08/01 14:03:35

is a collection of Papers I have written.
© 2000 - Sang-Kil Park Except where otherwise noted, content on this site is licensed under a CC BY 4.0.
This site design was brought from Distill.