본문 바로가기

PBL 빅데이터/산학프로젝트

[산학프로젝트] Nifi 한글 인코딩 변경하기

크롤링이 진행된 파일은 인코딩이 EUC-KR로 진행되어있다. 윈도우 환경에서는 윈도우가 알아서 환경에 맞게 열어주지만, 리눅스에서는 자동으로 되지않음으로 직접 인코딩을 맞추어주어야한다.

 

1) 인코딩 확인하기

한글 인코딩에 관련된 문제는 IT업계에서 자주 일어나는 문제이다. Notepad++을 설치한 후, 파일을 열어서 밑에 인코딩된 것을 확인할 수 있다.

확인해보면 현재 EUC-KR로 진행되어있음이 확인 가능하다.

 

2) 프로세스 만들기

Nifi에서 CharacterSet 을 변경해주는 프로세스가 있는데 이 프로세스를 중간에 사용해서 전달해주면 파일이 깨지지않고 전달이 가능해진다.

GetFTP → ConvertCharacterSet → PutHDFS 를 사용해서 한글의 깨짐 현상이 없이 리눅스 환경에 맞추어 UTF-8으로 지정이 되어서 갈 수 있다.

 

 

3) Configure 설정하기

configure 설정을 들어오는 인코딩 형식과 나갈 인코딩 형식을 지정해서 설정해주면 그에 맞추어서 characterset이 변경되어진다.

 

4) 한글 인코딩 확인하기

깨짐이 없이 한글이 나타난다.