AI

1년 안에 AI 빅데이터 전문가 되는 법

Opti-Mr 2022. 5. 11. 09:40
반응형

 

 

 

모든 내용은 위 책에서 발췌된 내용입니다.

 

국비지원 빅데이터 인재양성과정 수강은 어떨까?

국비 교육 과정으로 AI 빅데이터 과정을 4~6개월 동안 열심히 들어도 실제 얻는 것은 거의 없다. 차라리 혼자 공부하는 게 훨씬 빠르다.

(우리나라에는 AI 빅데이터를 가르칠 수 있는 교수가 없음, 실제로 배우러 가니 개발자 과정이 80%였고 이는 현업에서 쓰이지 않음.)

AI 전담 연구조직 : 에어렙

 

AI 빅데이터 분석가에게 필요한 자질?

AI 빅데이터 전문가가 되기 위해서는 수리통계학적 지식, 코딩 능력, 경영학적 서술 능력을 두루 겸비해야 한다.

 데이터에 대한 지식이 필요하기에 데이터베이스에 대한 사전 지식이 필요하다.

과거 RDB뿐만 아니라 최근에 많이 쓰는 No-SQL까지 알아야 한다.

또한 이와 관련해서 서버에 대한 지식도 어느 정도 필요하다.

서버도 알아야 하고 DB도 알아야 하고 API 제작도 알아야 하고 웹 개발도 알아야 한다. 단 초급이나 중급자 정도의 수준이면 된다. (가장 많이 활용되는 서버는 역시 아마존 aws다. 여러분도 처음이라면 aws를 공부하는 게 좋다.)( API에 대해서도 공부해야 한다. 왜냐하면 대부분의 AI 빅데이터 관련 프로젝트가 API를 활용해서 AI 빅데이터 모델 예측 결과를 실시간으로 송신하고 이를 어플리케이션이 수신해서 화면이 뿌려주는 구조이기 때문이다. 파이썬을 기준으로 API를 만드는 가장 쉬운 방법은 Flask 라이브러리를 활용하는 것이다. Flask 사용 방법은 굉장히 쉬워서 구글에 검색해 보아도 금방 따라할 수 있다.)

데이터 전처리 및 가공 능력은 당연히 필수적이다.

또한 수학, 통계학적 지식이 있어야 이를 응용해 가공된 데이터로 모델을 만든다. 

데이터베이스로 RDB보다는 No-SQL을 많이 쓰고 R보다는 파이썬을 더 많이 쓴다.

 

AI 빅데이터 전문가로써 경력을 쌓는 방법?

자신의 블로그 또는 홈페이지를 만들고 전문적인 글을 주기적으로 올려라

크몽, 오투잡 등 각종 프리랜서 플랫폼에 이력을 올리고 홍보하라

일거리를 받으면 높은 품질로 완성하고 고객에게 추천 및 평을 써달라고 요청하고 이를 마케팅에 사용하라

 

AI빅데이터 분석하는 방법?

문제인식 - 데이터 수집 - 데이터전처리 - 알고리즘 수정

 

AI 빅데이터 독학하는 방법?

논문 <지능정보연구>

연구하는 분야의 해외원서

결론적으로 자신이 편하고 쉬운 게 무엇인지 파악하고 그것만 하면 된다.

1. 주어진 데이터로 어떻게 비즈니스 문제를 해결할 것인지 고민하는 것이 가장 중요

2. 빅데이터의 특성, 저장 및 처리 기술에는 어떤 것이 있는지

기계학습, 딥러닝에 대한 간단한 개념과 그 안에 종류가 어떤 게 있는지

3. 처음에는 책으로 공부하는 것이 좋다.

<빅데이터 기초: 개념, 동인, 기법> - 시그마프레스

<인공지능 시대의 비즈니스 전략> - 더퀘스트

AI 빅데이터분석의 다양한 활용사례를 살펴보고 문제가 발생했을 때 모방하는 능력을 키워야 한다.

《빅데이터가 만드는 제4차 산업혁명》(북카라반)

《빅데이터 비즈니스 이해와 활용》(위즈하임)

《빅데이터 분석과 활용》(학지사) 

앞에서 경영학적 접근으로 간단히 맛보기를 해보았다면 이번에는 좀 더 깊이 들어가서 실제 데이터 분석 원리와 각 알고리즘에 대해서 알아보아야 한다.

데이터 마이닝

    1)데이터의 종류 파악, 기술통계

     2)데이터 전처리 기술 

     3)데이터 분석 알고리즘

책은 보고 이해하는 정도로만

• 《데이터 마이닝 개념과 기법》(지아웨이 한, 미셸린 캠버, 지안 페이 지음, 에이콘출판사)

• 《데이터마이닝 기법과 응용》(전치혁 지음, 한나래) 

실제 활용사례를 살펴본다. 

논문을 통해 관련 지식과 이해를 넓힌다.

 

논문 읽는 방법?

특정 방법론, 알고리즘이 어떤 방식으로, 어떠한 상황에 쓰였는지를 제안하는 논문을 읽으면 된다.

구글 학술검색이나 RISS에서 보기 (정보시스템학 계열)

   국내 : 지능정보연구, 한국경영과학회지, Information System Review

   해외 : 《IEEE Access》, 《IEEE Transactions on BigData》, 《Information Systems Research》 

 

관련 자격증이 필요할까?

자격증을 취득함으로써 무언가 이득을 얻는다기보다는 그 취득하는 과정에서의 공부가 꽤 많은 도움이 된다.

데이터 분석 자격검정 : <데이터 분석 전문가 가이드> - 한국데이터베이스진흥원

경영 빅데이터 분석사 : <경영 빅데이터 분석사> - 한경아카데미

사회조사분석사 시험 : 좀 더 상세한 수학적인 내용, 아주 기본적인 내용이고 학부생들도 필수로 배우는 내용이기에 알면 좋다.

SQL 자격검정 : 데이터 모델링 부분과 기본적인 SQL 쿼리 부분

 

분석 도구? R vs Python

R : 배우기 쉬움, 시각화하는 데 유리, 통계 분석 라이브러리가 더 많음

Python : 더 빠름, 딥러닝 라이브러리가 풍부

 

초보자 입문용 데이터 분석 독학 책

① 《파이썬 라이브러리를 활용한 데이터 분석》(한빛미디어)

② 《파이썬으로 데이터 주무르기》(비제이퍼블릭)

③ 《빅데이터 분석 도구 R 프로그래밍》(에이콘출판사)

④ 《R라뷰》(더알음) - < 1년 안에 AI 빅데이터 전문가가 되는 법, 서대호 지음 >

책에 있는 코드들을 일일이 하나하나 타자를 쳐가면서 따라해볼 필요는 없다. 코드를 그냥 이해하고 넘어가는 수준이면 된다. 좋은 코드 예제가 있으면 표시해두었다가 실제 프로젝트를 할 때에는 책에서 제공해주는 코드를 다운받아 적절히 가져다 쓰면 된다. 

 

수학?

수리통계학, 선형대수학

 데이터 분석의 가장 기초로 불리는 선형회귀 분석을 살펴보자. 선형회귀 분석을 하기 위해서는 몇 가지 가정이 만족되어야 하는데 그중에 등분산성, 정규성 가정 항목이 있다. 등분산성이란 응답변수에 대한 잔차의 분산이 같아야 한다는 것을 의미하고 정규성이란 응답변수에 대한 잔차가 정규분포를 띄어야 한다는 것을 의미한다. 혹시 이해가 잘 안 되어도 괜찮다. 아무튼 이러한 가정들을 만족해야 비로소 회귀분석을 할 수 있다는 정도만 알아두자. 여기서 나오는 잔차, 분산, 정규분포와 같은 용어들은 모두 수리통계학에서 배울 수 있는 내용들이다. 따라서 수리통계학을 공부해야 선형회귀 모형을 올바르게 생성할 수 있다.

수리통계학을 공부하면 여러 가지 분포들을 배울 수 있다. 가장 대표적으로 많이 알려진 정규분포부터, 지수분포, 감마분포, 카이제곱분포, 포아송분포, 이항분포 등 꽤 많은 분포들을 배울 수 있다. 이러한 각각의 분포들은 데이터에 대한 추정을 가능하게 한다. 예를 들어 어떠한 데이터가 주어졌을 때 그 데이터가 특정 분포를 따른다고 가정하고 데이터의 평균, 분산에 대한 추정과 그 구간 범위까지 추정할 수 있다. 이러한 추정들은 실제 현장에서 AI 빅데이터 분석 시 데이터 전처리 직후 기술통계 부분에서 많이 쓰인다. 또한 각종 분포들의 수리적인 모형을 공부해두면 고급 알고리즘들을 익히는 데에 도움이 된다. 예를 들어 텍스트 마이닝에서 자주 쓰이는 LDA 토픽모델링은 각각의 문서가 여러 개의 주제를 지니고 있고 이러한 주제들이 디리클레분포를 따른다고 가정한다.

수리통계학 

기본적인 미적분 개념은 미리 알고 있어야 한다. 개인적인 생각으로는 인터넷상에 나와 있는 미적분 공식들을 이해가 안 되어도 그냥 외우는 것이 가장 좋다.

미적분을 공부한 다음, 수리통계학 책을 읽으면서 수식이 나오면 연습장에 그대로 따라 적으면서 이해를 한다. 이해가 되었으면 다음으로 넘어가고 이해가 안 되었으면 이해하기 위해서 조금 더 생각을 하거나 인터넷에서 해당 개념을 찾아본다. 그래도 이해가 안 되면 그냥 넘어간다. 절대 수식을 외우지는 않는다. 그리고 각 챕터별 연습문제가 나오면 연습문제 해답을 펼쳐놓고 이해하면서 그대로 답을 연습장에 적는다. 이때에 증명이나 유도하라는 문제는 건너뛴다. 예제 데이터 세트를 주고 값을 구하라는 문제 위주로 빠르게 살펴본다. 이런 식으로 하면 하루이틀이면 한 챕터 가량은 공부할 수 있을 것이다. 수리통계학 책의 ‘정석’과도 같은 《수리통계학 개론》(경문사)을 기준으로 챕터가 총 11개이니 2~3주 정도면 끝낼 수 있다. 이해가 중요한 것이지 외울 필요는 절대 없다.

딥러닝

딥러닝이 제대로 구현되기 위해서는 두 가지 요건이 필요하다. 충분히 많은 데이터의 양과 이를 연산할 수 있는 컴퓨터의 연산 능력이다. 

공부?

이론을 책으로 익히고《딥러닝 제대로 시작하기》(제이펍)

프로그래밍 언어 실습하기 (파이썬으로 하는 것을 추천한다.)

딥러닝 무료 강의 추천 : 홍콩 과기대 교수로 재직 중인 김성훈 교수가 올린 강의도 들을 만한다. 어려운 수식 없이 딥러닝의 탄생 배경과 기본 개념을 설명해준다. 또한 간단한 코드 예제도 제공된다. 무료로 들을 수 있고 수업 자료도 PDF로 제공https://www.inflearn.com/course/기본적인-머신러닝-딥러닝-강좌

그다음으로는 《밑바닥부터 시작하는 딥러닝》(한빛미디어)을 추천한다. 《딥러닝 제대로 시작하기》와 비슷한데 좀 더 깊숙한 내용까지 다루며 기본적인 코드 예제도 다룬다. 여기까지 하면 딥러닝 기초는 어느 정도 다질 수 있다.

라이브러리로는 케라스 추천 (책은 《케라스 창시자에게 배우는 딥러닝》(길벗)을 강력하게 추천 )

RDB=관계형 데이터베이스 

데이터베이스 공부

첫 번째는 CRUD 관련 쿼리를 이해하는 것이다. CRUD는 생성Create, 읽기Read, 갱신Update, 삭제Delete를 묶어서 표현하는 용어다. 데이터베이스에 저장된 데이터를 분석하려면 데이터를 넣고 빼고 읽고 삭제하고 갱신하는 등의 쿼리를 자유자재로 구사할 줄 알아야 한다. 

즉 키key와 값value의 간단한 관계를 테이블화한 데이터베이스로 우리가 흔히 알고 있는 오라클, MsSQL, MySQL 등이 모두 RDB다. 특히 MySQL은 무료이기 때문에 대다수의 시작 단계의 프로젝트들은 MySQL을 DB로 채택한다. 따라서 여러분이 앞으로 가장 많이 다루어야 할 DB도 MySQL이 될 확률이 크다.

RDB는 Database Concepts》(Pearson Education). 이 책 한 권만 읽으면 RDB에 대한 기본적인 개념을 다 알 수 있다. 개념을 알고 있어도 SQL 쿼리로 구현할 수 있어야 한다. 따라서 SQL 쿼리 공부를 해야 하는데 이전 장에서 말했던 ‘SQL 개발자’ 자격증 공부를 했던 책으로 공부하면 된다. 책은《SQL 전문가가이드》(한국데이터베이스진흥원) 이 책을 공부하면 오라클, MsSQL 쿼리를 공부할 수 있다.

RDB는 여러 가지 제약 조건과 정규화 과정들이 있었지만 몽고DB는 No-SQL이라 그런 것이 없다. 말 그대로 비정형 데이터들을 모두 집어넣을 수 있다. 그래서 빅데이터 시대에 각광받는 DB가 된 것이다. 책은 《몽고디비 인 액션》(제이펍)을 추천한다. 사실 이 책도 처음부터 정독할 필요가 없다. 7~10장의 쿼리 최적화, 복제, 샤딩, 배포와 관리와 같은 챕터는 건너뛰어도 된다.

연습하기

실전에서 직접 비즈니스 문제에 대한 가설을 세운 후, 데이터 임포트, 전처리, 모델링까지 해보면서 전문가로서 발돋움할 수 있는 실력을 키워야 한다.

세부 연구분야 선정?

자연어 처리, 영상 분석, 딥러닝 분야의 AI 빅데이터 전문가는 매우 인기가 높다. 취업할 곳도 많고 논문을 실을 수 있는 기회도 많다.

데이터를 얻을 때 이미지 분류에 대해서 공부해보고 싶다면 검색 창에 ‘image classification’ 이라고 검색하면 된다. 그러면 해당 키워드로 검색된 코멘트, 데이터 세트, 노트북 파일 등을 한눈에 볼 수 있다. 자신의 프로그래밍 언어(파이썬 또는 R)에 맞는 코드들만 따로 필터링할 수도 있고 데이터 세트 양medium, large, small에 따라서도 필터링 할 수 있다. 

이미지 분석의 경우 전처리 단계에서 이미지 특징 추출(RGB, SIFT, Haar feature 등) 기술이 대단히 중요하다. 분석 단계에서는 이미지 분류, 이미지 경계선 추출, 유사한 이미지 판별 등이 있다. 이 또한 다른 연구 분야에서는 볼 수 없는 이미지 분석에서만 쓰이는 기술들이다. 그리고 지금 말한 하나하나가 전부 개별 연구이고 무수히 많은 논문들이 있다. 따라서 이런 식으로 기술적인 측면에서 자신이 재미있고 이해가 잘되는 강점인 분야를 찾아야 한다.

인스타그램, 핀터레스트에서 사진을 추출해서 이미지 분석 프로젝트를 해볼 수도 있다.

꾸준한 노력

나는 주 연구 분야의 자세한 알고리즘에 대한 설명이 있는 책과 논문을 거의 매일 챙겨서 공부한다. 그리고 부 연구 분야에 대한 것은 실제 적용 부분에 대한 설명이 있는 책과 논문을 찾아 읽고 있다. 예를 들어 주 연구 분야인 추천 알고리즘에 대해서는 각 추천 알고리즘 하나하나의 자세한 수식을 공부하고 최신 알고리즘들을 책과 논문을 통해 접한다. 반면 부 연구 분야인 이상탐지에 대해서는 이상탐지 분야가 쓰이는 대상 또는 현상에 대해서 설명한 논문이나 기본적인 이상탐지 분석 방법을 개괄적으로 서술한 책을 읽는다. 이렇게 주 연구분야 한두 개, 부 연구 분야 한두 개를 선정하는 것이 한 사람의 연구자가 연구할 수 있는 이상적인 개수라고 생각한다. 

아마존닷컴에서 원하는 키워드 검색하여 관심 분야 책들 눈여겨보기, 아마존이 추천해준 책들은 전 세계에서 나와 연구분야가 비슷한 연구원, 교수들이 추천하는 책이다. 해당 연구분야에 대한 꽤 두꺼운 책을 선정해서 읽어라. 읽으면서 새로운 아이디어가 보이면 메모장에 적어두자. 논문 쓸 때 활용도가 높다.

파이썬코딩 책《Building Recommender Systems with Machine Learning and AI》(Sundog Education)가 있다. 해당 책은 실제 아마존의 추천 엔진 개발자가 파이썬 언어로 추천 시스템을 구현한 것을 설명한 책이다. 책은 내용이 꼼꼼히 들어 있는 자세한 책을 선택하고 내용이 충분히 이해되도록 공부해야 한다. 그다음에 굳이 책을 더 읽고 싶으면 알고리즘 적용 분야에 대해 설명한 경영학적인 책을 몇 권 읽으면 도움이 된다.

논문을 많이 읽어야 하는 이유

논문을 읽고 이해하는 것 자체가 진정으로 학자의 길로 들어서는 첫 길목과 같다. 논문은 책과 달리 저자들이 새로운 아이디어가 떠오르면 바로 페이퍼로 게재하기 때문에 독자 입장에서는 최신 방법론, 알고리즘을 더욱 빠르게 습득할 수 있다. 비슷하지만 조금 변형된, 혹은 같지만 새로운 분야에 적용한, 또는 몇 가지 방법론 및 알고리즘을 혼합한 새로운 아이디어를 도출할 수 있다. 논문은 다른 사람들이 쌓아놓은 지식 위에 내가 조금 더 지식을 쌓으면 그것이 논문이고 그것이 새로운 아이디어다. 많이 읽을수록 당신의 전문성이 높아지고 새로운 아이디어가 떠오를 가능성도 높아질 것이다.

논문 정리법

우선 논문을 한 개 읽으면 다 읽고 나서 논문 맨 앞표지에 해당 논문의 가장 핵심적인 아이디어를 간단히 몇 줄로 요약한다. 이렇게 해두면 나중에 해당 논문이 무슨 내용인지 기억하기 위해 처음부터 볼 필요가 없다.

논문을 읽다가 이 아이디어는 정말로 요긴하게 쓸 수 있겠다 생각하는 것은 나만의 아이디어 노트에 따로 정리해둔다.

마지막으로 인용이 많이 되었거나 해당 연구 분야에서 핵심적인 아이디어를 제안했던 논문들은 따로 워드 테이블로 정리해둔다. 테이블은 간단히 저자, 제목, 연도, 연구 목적, 연구 방법 정도로 정리하면 된다. 그리고 정리할 때에는 따로 노란 봉투에 넣어두든지, 노트를 만들든지, 테이블을 만들든지 무조건 연구 분야마다 분리해야 한다.

논문을 어디서 보지?

구글 학술검색에 키워드로 검색

연구 동향 파악을 위해서는 최신 논문들을 읽는 게 좋다. 구글 학술검색을 이용하면 연도별로 논문을 검색할 수 있는데 2018년, 2019년 이후의 논문들로 검색해서 보라.

메타분석을 한 논문) 검색 시에는 ‘literature review’라는 키워드를 함께 넣어주자. 예를 들어 추천 알고리즘에 대한 메타분석 논문을 읽고 싶으면 ‘recommendation system literature review’라고 검색한다.

논문 선정해서 읽어야지

인용 수가 많은 논문 : 해당 연구 분야에서 가장 인기 있고 인정받는 논문이니 당연히 읽을 만한 가치가 있다.

최신 경향을 익히기 위해 게재 연도가 최근인 논문 중에서 자신에게 친숙한 저널이나 어느 정도 명망 있는 저널의 논문을 읽는 것이다.

선행 연구 부분이 자세하게 나와 있는 하나의 논문을 정해서 해당 논문의 선행 연구에 있는 논문들을 찾아서 읽는 방법이다. 이 방법은 연구 동향에 대한 흐름을 익히는 데 도움이 된다.

결론적으로 논문을 많이 읽으면 좋긴 하지만 무작정 읽기만 하면 비효율적이니 자신만의 정리 또는 논문 선택 방법을 갖고 꾸준히 논문 읽기를 실천해야 한다.

막히는 부분이 있을 때?

구글에 검색하면 스택 오버플로와 같은 웹사이트의 Q&A 게시판에 당신과 비슷한 질문을 올린 다른 사람들을 다수 보게 될 것이다. 스택 오버플로는 컴퓨터 프로그래밍의 다양한 주제에 대한 질문과 답변 기능을 한다. 

AI 빅데이터 분석 전문 SI 업체

솔트룩스, 모비젠, 엔텔스, 와이즈넛과 같은 회사

 

논문 쓸 때

그냥 자신이 재미있게 읽었던 다른 논문의 논리 전개 방식을 그대로 벤치마킹하면 훨씬 쉽게 논문을 작성할 수 있다. 특히 이제 논문을 처음 쓰기 시작하는 초보자들에게는 이 방법이 효과적이다. 

해당 연구 주제로 그동안 연구가 너무 없었거나 너무 많았던 것은 피하는 게 좋다. 구글 학술검색에서 연구 주제 키워드로 검색했을 때 15~30개 정도의 논문이 나오면 딱 좋다.

반응형

'AI' 카테고리의 다른 글

유용한 AI tool  (0) 2023.07.06
KT AI연구포털 '지니랩스'  (4) 2022.06.08
인공지능시대의 비즈니스 전략  (4) 2022.05.24
자료구조  (1) 2022.05.20