빅데이터 4

결측치, 이상치, 그리고 상관관계 분석

이때까지 제가 했던 분석의 대부분은 데이터 수집(크롤링) -> 데이터 분석 -> 시각화 의 과정을 거쳐왔습니다. 하지만 프로젝트를 진행하면서 용어에 대한 지식 자체가 부족했고 사람들과 의사소통을 넘어 간단한 논문 내용 조차, 통계 분석 결과 조차 해석 하기 어려웠습니다. 그렇기에 앞으로 공부와 복습을 위해 단어 및 공부 내용을 정의와 함께 간단하게 살펴보는 게시글을 올리게 되었습니다. 저는 R을 기반으로 공부하기 때문에 하단에 정의와 함께 게시된 코드는 R 코드 기반입니다. 1. 결측치 결측치는 NA, 즉 비어있는 값 입니다.. 데이터를 전처리할 때 결측값을 제거하는 일이 종종 있었습니다. 결측치가 포함된 채 분석을 진행했을 때 분석 결과가 완전 다른 결과를 도출하거나, 도출 되지 않을 수도 있기에 결측..

R 데이터 분석 2021.08.22

(UIPATH, R) 부동산과 관련된 국민들의 의견 수집 및 분석을 통해 도출한 감정 분석 및 추후 부동산 정책 예측

안녕하세요 병통입니다. 이번 프로젝트는 UIPATH와 R을 활용하여 워드클라우드를 제작해보고 그 결과로 감정분석을 해보는 프로젝트를 진행하보았습니다. 전체적인 과정을 요약하자면 두 가지의 분석 과정을 진행했습니다. 첫번째로는 UIPATH를 활용하여 유튜브 댓글을 크롤링하고 크롤링 한 댓글을 워드클라우드로 만든 뒤, 워드 클라우드를 바탕으로 감정분석을 해보았으며, 두번쨰로는 R을 활용하여 뉴스 기사 내용을 크롤링하고 크롤링 된 뉴스 기사를 워드 클라우드로 만든 뒤, 워드 클라우드를 바탕으로 감정분석을 해보았습니다. 주제는 2021년 가장 핫한 주제 중 하나였던 부동산 을 선택하여 진행하였습니다. 정치적인 이야기를 하고자하는 것이 아닌, 국민들의 대부분의 정서를 파악하고 20대의 입장에서 생각해 본 앞으로의..

웹 크롤링

웹 크롤링 기초 과정입니다. 제가 제일 처음 배웠던 웹 크롤링으로써 처음 체험하는데 가장 좋은 예시가 될 수 있을 것 같아 글을 적게 되었습니다. 파란색으로 남긴 글이 코드이기에 본 게시글을 보시면서 파란글을 R studio에 붙여넣기 하시면 이해가 더 쉽게 될 것입니다. 게시글 시작하겠습니다 ! library(rvest) #크롤링을 위한 라이브러리 크롤링만 진행할 것이기에 rvest만 있어도 충분히 크롤링이 가능합니다. 필요한 라이브러리 기입입니다. 전처리 내용을 워드클라우드까지 제작해 보는 것을 목표로 진행하였습니다. 지금 블로그 글에서는 크롤링까지 진행해보겠습니다. 처음에는 다음 뉴스 기사 크롤링입니다. 많은 분들이 시도하였고 좋은 예시라고 생각하기에 제일 먼저 이 방법을 선택하여 진행하였습니다. ..

R 데이터 분석 2021.08.19

UIPATH를 활용한 주식 정보 알아보기.

UIPATH 구조를 사용하여 내가 관심있는 주식 정보에 대한 정보를 이메일로 받아볼 수 있게 구성해보았습니다. 먼저 UIPATH 프로그램을 간단히 설명한다면 UIPATH는 RPA(Robotic Process Automation) 즉 ,자동화 시스탬입니다. 메소드를 짜놓으면 그 메소드에 맞춰 자동으로 검색 과 크롤링까지 해주는 프로그램입니다. 먼저 프로세스를 만들기 이전에 내가 원하는 주식 정보를 알아야 합니다. 수집된 정보는 UIPATH 내에서 사용하기 위해 엑셀에 저장하였습니다. 우리는 stock시트에 저장된 주식코드와 이름을 활용하여 저장과 검색을 용이하게 만들것입니다. 검색하기로 선정한 웹 페이지는 모바일 네이버 증권 홈페이지입니다. 모바일 버전이 좀 더 간편하게 데이터를 수집할 수 있기에 선정하였..