본문 바로가기
반응형

Data12

[MongoDB] $text 검색 시 'No query solutions' 오류 특정 단어나 문장을 검색하기 위해 컬렉션내에 필드 하나를 text 인덱스 추가하여 검색하려고 할 때, 보통 아래와 같이 쿼리한다. db.getCollection('my_collection').find({ $text: { $search: "\"hello world\"" } })위와 같이 단일 쿼리를 할 때는 괜찮지만, 다른 필드와 $or를 같이 쓰려한다면 다음과 같은 오류가 나타날 수 있다. 이번 케이스도 다른 필드와 조합하여 검색하려고 아래와 같은 쿼리로 검색을 시도하였으나, No query solutions 오류가 발생하였다. 검색 쿼리 db.getCollection('my_collection').find( "$or": [ { "id": "hello world" }, { $.. 2023. 10. 27.
Elasticsearch MacOS 로컬 설치 및 환경설정 방법 Elastic Search를 Mac 환경에서 로컬 설치해보자. 설치 방법은 크게 두가지 있다. Elasticsearch 공식 홈페이지에서 tar.gz 다운로드 받아 설치 mac OS brew command로 설치 1. 파일 다운로드 Elasticsearch 공식 홈페이지에서 제공하는 다운로드 페이지 접속해서 choose platform macOS 선택하고 다운로드 받는다. 다운로드 페이지 Download Elasticsearch Download Elasticsearch or the complete Elastic Stack (formerly ELK stack) for free and start searching and analyzing in minutes with Elastic. www.elastic.co.. 2023. 4. 17.
Python(파이썬)으로 Elasticsearch Index 생성하기 index body로 인덱스 생성 from elasticsearch import Elasticsearch es = Elasticsearch() index_name = "my_index" index_body = { "settings": { "number_of_shards": 1, "number_of_replicas": 0 }, "mappings": { "properties": { "title": {"type": "text"}, "content": {"type": "text"} } } } response = es.indices.create(index=index_name, body=index_body) print(response) 위 코드에서 index_name 변수에 새로운 인덱스의 이름을 지정하고, ind.. 2023. 4. 16.
[Hadoop] HDFS missing block error 해결 CDH 호스트 추가하다 HDFS에 Missing block error가 발생함 어떤 파일이 손상됐는지 hdfs fsck 커맨드로 점검 hdfs fsck /user/test 결과 값은 아래와 같다 /user/test/sample/a.c000.snappy.parquet: MISSING 1 blocks of total size 3281 B.. /user/test/sample/b.c000.snappy.parquet: CORRUPT blockpool BP-1946097349-10.105.5.32-1529396520190 block blk_1152928797 /user/test/sample/c.c000.snappy.parquet: MISSING 1 blocks of total size 3301 B... /user/.. 2023. 4. 7.
[Hadoop] HDFS Balancer 수행 안되는 경우 재수행 하는 방법 java.io.IOException: Another Balancer is running.. Exiting ... 재수행 시 위와 같은 오류가 나면서 수행이 안되는 케이스. $ hdfs dfs -ls /system/balancer.id -rw-r--r-- 3 hdfs 25 2023-04-02 20:04 /system/balancer.id $ hdfs dfs -cat /system/balancer.id cat: Cannot obtain block length for LocatedBlock{BP-1946097349-123-1529396520190:blk_1153064940_79324378; getBlockSize()=25; corrupt=false; offset=0; locs=[DatanodeInfoWithS.. 2023. 4. 6.
[Spark] No space available in any of the local directories 이슈 org.scala-lang.modules#scala-xml_2.11;1.2.0 from spark-list in [default] org.slf4j#slf4j-api;1.7.25 from spark-list in [default] xml-apis#xml-apis;1.4.01 from spark-list in [default] xml-resolver#xml-resolver;1.2 from spark-list in [default] :: evicted modules: org.slf4j#slf4j-api;1.7.21 by [org.slf4j#slf4j-api;1.7.25] in [default] org.slf4j#slf4j-api;1.7.16 by [org.slf4j#slf4j-api;1.7.21] in [d.. 2022. 1. 26.
배치 파이프라인 도입을 위한 Workflow 리서치 (Airflow VS Azkaban VS Oozie) 현업에서 데이터 처리를 위한 Workflow가 잘 되어있지 않은 상황이다. 외부에서 데이터를 끌어와 변환하고 적재하는 ETL 작업 뿐만 아니라 비즈니스 로직에서 처리해야할 배치가 수십개가 넘어가는데, 이 플로우를 한 눈에 파악하고 수행할 도구가 없다 보니 손이 많이 간다. 개발된 배치의 형태는 다양하다. Spark Job 이 대부분이고 전처리 단계에서는 Shell Script, Python Script, Command Line 등 다양한 형태로 존재한다. 하나의 단위(Task)가 끝나면 다음 단위를 수행하고 마지막으로 처리할 단위를 끝으로 하나의 플로우가 마무리된다. 이들은 각각 Linux상에서 crontab 으로 구현되어 있다. Cron 표현식을 통해 한 단위를 주기적으로 Triggering 하는데, .. 2020. 6. 29.
웹사이트 분석 도구 비교! Google Analytics VS Matomo 사용자 분석도구로 가장 많이 쓰이는 GA와 대체제인 Matomo를 비교해본다. 웹 기반의 서비스를 런칭한 후 어떤 툴이 비즈니스 적으로 더 도움이 되고 더 편리할지 리서칭을 하기 위함. Matomo Matomo: Complete Analytics. 100% Yours. 국제 개발자 팀이 개발한 오픈소스 웹 분석 프로그램이다. Google Analytics와 기능이 유사하며 Matomo 진영에서는 GA의 대안으로 주장한다. 특징 오픈소스 PHP, MySQL 기반 다양한 분석 기능 제공 visitor profile, heatmap, session recording, funnels 등 Customizing 가능 마켓플레이스 유/무료 플러그인 존재 및 제공 (https://plugins.matomo.org/) .. 2020. 6. 22.
NoSQL 데이터 모델링 기법 앞서 NoSQL의 특징과 데이터 모델링의 개념을 살펴봤는데, 그 종류가 매우 다양하고 각 종류마다 데이터 관리 방식이 다르다는 것을 알 수 있었습니다. 다양하게 데이터를 모델링 할 수 있는 만큼 여러 기법들이 존재하는데 어떤 기법들이 있는지 살펴보고 그 중 대표적인 기법들에 대해서 자세히 알아보도록 하겠습니다. 주요 NoSQL 데이터 모델링 기법 Atomic AggregatesEnumerable KeysDimensionality ReductionIndex TableComposite Key IndexAggregation with Composite KeysInverted Search - Direct AggregationMaterialized Path..... NoSQL의 데이터 모델링 기법에는 위와 같이 다.. 2016. 6. 14.
NoSQL 데이터 모델링 개념 데이터베이스를 사용할 때 가장 중요한 것은 역시 데이터 모델링이라고 할 수 있습니다. 데이터를 어떤 형태로 관리하고 적재할 것인지에 따라 성능이나 관리적인 측면에서 큰 차이가 날 수 있기 때문입니다. 기존의 RDBMS 방식과 NoSQL의 모델링 방법은 서로의 개념이 다른 만큼 큰 차이가 있습니다. 관계형 데이터베이스의 모델링은 주로 데이터들을 정규화(Normalization) 하는 방식으로 진행합니다. 반면에, NoSQL의 모델링은 비정규화(Denormalization)를 기본으로 가져갑니다. NoSQL의 데이터 모델링 개념과 기법, 예시를 보면서 알아보도록 할텐데 먼저 개념부터 알아보겠습니다. NoSQL 데이터 모델링 개념비정규화(Denormalization)와 함께 Aggregates, Applica.. 2016. 6. 10.