Browsed by
월: 2019년 4월월

AWS EMR 튜토리얼 – Part 1

AWS EMR 튜토리얼 – Part 1

안녕하세요! 지난 포스트에서는 하둡 환경을 직접 구성하는 작업을 해봤습니다. 네! 좀 번거롭죠.. 특별히 튜닝한 환경이 필요하지 않은 한 매번 세팅하기가 좀 힘듭니다. 그래서 이번 포스트에서는 하둡 클러스트를 쉽게 배포하고 사용하는 방법에 대해 알아보겠습니다. AWS의 EMR이라는 서비스를 이용해서, MRJob이나 PySpark를 테스트해보도록 하겠습니다. 파트 1 포스트에서는, 그냥 최대한 간단하게 론칭하고 예제 코드를 돌려보는 정도로만 해보겠습니다. (인스턴스 그냥 만들어 놓고 HDFS를 이용해서 파일 처리하고) 그리고 파트 2부터는 조금 더 제대로 EMR을 사용해보도록 하겠습니다. (AWS CLI 이용하고, S3에 저장하고) 다시 말씀드리지만, 만약 AWS 크레디트가 없는 분들은 이 링크를 활용해서 한번 본인이 받을 수 있는지 확인해보세요! STEP 1….

Read More Read More