본문 바로가기
반응형

Data/Big Data3

[Hadoop] HDFS missing block error 해결 CDH 호스트 추가하다 HDFS에 Missing block error가 발생함 어떤 파일이 손상됐는지 hdfs fsck 커맨드로 점검 hdfs fsck /user/test 결과 값은 아래와 같다 /user/test/sample/a.c000.snappy.parquet: MISSING 1 blocks of total size 3281 B.. /user/test/sample/b.c000.snappy.parquet: CORRUPT blockpool BP-1946097349-10.105.5.32-1529396520190 block blk_1152928797 /user/test/sample/c.c000.snappy.parquet: MISSING 1 blocks of total size 3301 B... /user/.. 2023. 4. 7.
[Hadoop] HDFS Balancer 수행 안되는 경우 재수행 하는 방법 java.io.IOException: Another Balancer is running.. Exiting ... 재수행 시 위와 같은 오류가 나면서 수행이 안되는 케이스. $ hdfs dfs -ls /system/balancer.id -rw-r--r-- 3 hdfs 25 2023-04-02 20:04 /system/balancer.id $ hdfs dfs -cat /system/balancer.id cat: Cannot obtain block length for LocatedBlock{BP-1946097349-123-1529396520190:blk_1153064940_79324378; getBlockSize()=25; corrupt=false; offset=0; locs=[DatanodeInfoWithS.. 2023. 4. 6.
배치 파이프라인 도입을 위한 Workflow 리서치 (Airflow VS Azkaban VS Oozie) 현업에서 데이터 처리를 위한 Workflow가 잘 되어있지 않은 상황이다. 외부에서 데이터를 끌어와 변환하고 적재하는 ETL 작업 뿐만 아니라 비즈니스 로직에서 처리해야할 배치가 수십개가 넘어가는데, 이 플로우를 한 눈에 파악하고 수행할 도구가 없다 보니 손이 많이 간다. 개발된 배치의 형태는 다양하다. Spark Job 이 대부분이고 전처리 단계에서는 Shell Script, Python Script, Command Line 등 다양한 형태로 존재한다. 하나의 단위(Task)가 끝나면 다음 단위를 수행하고 마지막으로 처리할 단위를 끝으로 하나의 플로우가 마무리된다. 이들은 각각 Linux상에서 crontab 으로 구현되어 있다. Cron 표현식을 통해 한 단위를 주기적으로 Triggering 하는데, .. 2020. 6. 29.