일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 반복문
- 파이썬
- python
- 제로베이스
- Size
- shell
- 매핑
- 제로베이스pm스쿨
- kuromoji
- if문
- ElasticSearch
- Sort
- 조건문
- while문
- 제로베이스부트캠프
- json
- bulk
- NumPy
- elif문
- 셸
- 학습일지
- kibana
- else문
- pm
- 블록구조
- for문
- UNIX
- mapping
- pm스쿨28기
- 일본어형태소분석기
- Today
- Total
목록Programming (21)
code name blue
elasticsearch 6.4.3 version 5. kuromoji_readingform token filter (공식문서) kuromoji_readingform 토큰 필터는 가타카나 혹은 로마자 발음대로 결과를 리턴한다. 사전 정의된 kuromoji_readingform 필터를 사용할 때 use_romaji 항목을 true로 사용한다. 반대로 커스텀 kuromoji_readingform 필터를 사용하거나 가타카나 발음 결과를 리턴하고 싶을 경우 use_romaji 항목을 false로 사용하면 된다. PUT kuromoji_sample { "settings": { "index":{ "analysis":{ "analyzer" : { "romaji_analyzer" : { "tokenizer" : "ku..
elasticsearch 6.4.3 version 3. kuromoji_baseform token filter (공식문서) kuromoji_baserform 토큰 필터는 동사와 형용사 용언의 원형을 복원한다. 한국어를 예로 들자면 '갔어', '가니까' 등의 동사를 기본형인 '가다'로 복원해준다. PUT kuromoji_sample { "settings": { "index": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "kuromoji_tokenizer", "filter": [ "kuromoji_baseform" ] } } } } } } 위와 같이 tokenizer는 kuromoji_tokenizer로, filter는 kuromoji_base..
elasticsearch 6.4.3 version kuromoji analyzer (공식문서) 일본어 형태소 분석기 kuromoji analyzer는 아래와 같은 tokenizer와 token filter로 구성되어있다. tokenizer는 각 단어(term/token)를 분리하는 역할을, token filter는 분리된 단어들을 검색 가능하게 가공하는 역할을 한다. kuromoji_iteration_mark character filter kuromoji_tokenizer kuromoji_baseform token filter kuromoji_part_of_speech token filter cjk_width token filter ja_stop token filter kuromoji_stemmer to..
elasticsearch 6.4.3 version 1. 공식 가이드 https://www.elastic.co/guide/en/elasticsearch/plugins/6.4/analysis-kuromoji.html 2. 설치 방법 elasticsearch home directory로 이동 후 아래의 명령으로 설치한다. $ sudo bin/elasticsearch-plugin install analysis-kuromoji -> Downloading analysis-kuromoji from elastic [=================================================] 100% (...) -> Installed analysis-kuromoji 위와 같이 자동으로 설치가 진행되고, I..
elasticsearch 6.4.3 version elasticsearch를 사용하다 보면 다양한 검색 결과를 필요로 하게 된다. 이 때 사용할 쿼리들을 정리해 보았다. 1. from / size (공식문서) elasticsearch의 기본 from 값은 0, size 값은 10이다. 따라서 쿼리의 결과로 "hits"의 "total"이 21이 나와도 10개의 결과만 보여진다. 이 때 아래와 같이 size에 값을 지정하여 검색 결과의 최대값을 정할 수 있다. { "from":0, "size":30, "query":{ "match_all":{} } } 최대 30개의 결과가 표시되고, size의 최대값은 index setting의 index.max_result_window에 설정된 값을 초과하여 설정할 수 없..
elasticsearch 6.4.3 version 다량의 데이터를 넣기 위해 사전에 "test_movie"라는 인덱스를 생성하고 'title' 필드를 매핑하였다. 이후 아래와 같은 형식으로 bulk_title.json 파일을 생성하였다. 1 2 3 4 5 6 { "index" : { "_index" : "인덱스명", "_type" : "타입명", "_id" : "1" } } { "title" : "About Time" } { "index" : { "_index" : "인덱스명", "_type" : "타입명", "_id" : "2" } } { "title" : "Eternal Sunshine" } { "index" : { "_index" : "인덱스명", "_type" : "타입명", "_id" : "3"..
elasticsearch 6.4.3 version mapping이란? elasticsearch의 index에 들어가는 데이터의 타입을 정의하는 것이다. 미리 index를 생성하고 mapping을 지정하는 것이 좋지만, 사용자가 mapping을 정의하지 않더라도 elasticsearch에서 자동으로 데이터 타입을 mapping 해준다. index 생성하기 1 2 3 4 5 6 PUT /test/movie/1 { "title": "Eternal Sunshine", "director": "Michel Gondry", "genre": "Romance" } 'test'라는 인덱스에 'movie'라는 타입으로 위와 같은 데이터를 생성하였다. mapping 조회하기 1 GET /test/movie/_mapping '..
elasticsearch 6.4.3 version * elasticsearch 설치 이전에 java를 설치해야 한다! 1. 파일 다운로드 $ wget https://artifacts.elastic.co/downloads/kibana/elasticsearch-6.4.3-linux-x86_64.tar.gz 2. elasticsearch 설치 (파일 압축 해제) $ tar -xzvf elasticsearch-6.4.3-linux-x86_64.tar.gz 압축 해제 이후 .tar.gz 파일은 삭제한다. 3. elasticsearch 환경설정 1 (Bootstrap Check 통과) [1] max file descriptors 늘리기 - Mac OS / Linux 사용자에게만 해당 - open file descr..