빅데이터 분석 2

결측치, 이상치, 그리고 상관관계 분석

이때까지 제가 했던 분석의 대부분은 데이터 수집(크롤링) -> 데이터 분석 -> 시각화 의 과정을 거쳐왔습니다. 하지만 프로젝트를 진행하면서 용어에 대한 지식 자체가 부족했고 사람들과 의사소통을 넘어 간단한 논문 내용 조차, 통계 분석 결과 조차 해석 하기 어려웠습니다. 그렇기에 앞으로 공부와 복습을 위해 단어 및 공부 내용을 정의와 함께 간단하게 살펴보는 게시글을 올리게 되었습니다. 저는 R을 기반으로 공부하기 때문에 하단에 정의와 함께 게시된 코드는 R 코드 기반입니다. 1. 결측치 결측치는 NA, 즉 비어있는 값 입니다.. 데이터를 전처리할 때 결측값을 제거하는 일이 종종 있었습니다. 결측치가 포함된 채 분석을 진행했을 때 분석 결과가 완전 다른 결과를 도출하거나, 도출 되지 않을 수도 있기에 결측..

R 데이터 분석 2021.08.22

(UIPATH, R) 부동산과 관련된 국민들의 의견 수집 및 분석을 통해 도출한 감정 분석 및 추후 부동산 정책 예측

안녕하세요 병통입니다. 이번 프로젝트는 UIPATH와 R을 활용하여 워드클라우드를 제작해보고 그 결과로 감정분석을 해보는 프로젝트를 진행하보았습니다. 전체적인 과정을 요약하자면 두 가지의 분석 과정을 진행했습니다. 첫번째로는 UIPATH를 활용하여 유튜브 댓글을 크롤링하고 크롤링 한 댓글을 워드클라우드로 만든 뒤, 워드 클라우드를 바탕으로 감정분석을 해보았으며, 두번쨰로는 R을 활용하여 뉴스 기사 내용을 크롤링하고 크롤링 된 뉴스 기사를 워드 클라우드로 만든 뒤, 워드 클라우드를 바탕으로 감정분석을 해보았습니다. 주제는 2021년 가장 핫한 주제 중 하나였던 부동산 을 선택하여 진행하였습니다. 정치적인 이야기를 하고자하는 것이 아닌, 국민들의 대부분의 정서를 파악하고 20대의 입장에서 생각해 본 앞으로의..