데이터 분석/크롤링 3

[AI개발자 부트캠프 Elice] Selenium심화, 브라우저 제어

1. 브라우저 제어Q. 브라우저 제어는 왜 해야할까요?로그인 자동화로그인 후에만 나오는 웹 페이지 분석을 위해ID와 비밀번호 입력 후 로그인 버튼 클릭 (또는 엔터키 입력)드랍다운 버튼 클릭드랍다운 버튼을 클릭해야만 나오는 요소의 추출을 위해드랍다운 버튼을 찾아서 클릭→ 답은 Selenium입니다!!  2. 브라우저 로딩 기다리기브라우저 로딩이 지연되는 경우가 있습니다.이럴 때는 어떻게 해야할까요?Point Itime.sleep(n): 무조건 기다리기import timewith webdriver.Firefox() as driver: driver.get(url) # 웹페이지 로딩 time.sleep(10) # 10초간 기다리기 e = driver.find_element() ...

[AI개발자 부트캠프 Elice] 웹 스크래핑과 Selenium

1. 웹 스크래핑과 Selenium웹 스크래핑이란, 웹사이트에서 원하는 데이터를 수집하고 가공하는 행위입니다.Selenium은 웹 테스트 자동화 도구로, 파이썬(또는 자바) 라이브러리로 사용합니다. Selenium은 브라우저를 제어하는 기능이 있어 웹 스크래핑에 용이합니다.  2. 태그 이름으로 요소 찾기Point ISelenium 공통 설정from selenium import webdriverfrom selenium.webdriver.common.by import Bydriver = webdriver.Firefox() # 실행 브라우저driver.get('https://news.naver.com')...driver.quit()해당 프로그램을 수행할 브라우저를 선택하여 실행하며, 다양한 브라우저 (ex...

[AI개발자 부트캠프 Elice] HTML훑어보기

1. 크롤링에 관하여Web Crawler: 수많은 웹사이트를 탐험하며 페이지를 수집하는 시스템으로, Web Spider라고도 합니다.Web Scrapping: 특정 웹 페이지 내용 중 원하는 부분을 내가 원하는 형식으로 만드는 것을 말합니다. 웹 페이지 작성 규칙을 따르며 정리할 수 있습니다.크롤링 기술을 배우기 위한 발판이 스크래핑이고, 스크래핑을 배우기 전에 웹(Web)에 대한 지식이 선행되어야 합니다. 따라서 이번 장에서는 웹의 설계도인 HTML에 대해 학습했습니다.  2. HTML이란?HTML이란 Hyper Text Markup Language의 약자로, 웹사이트에서 눈에 보이는 정보나 특정 구역을 설정할 때 사용하는 언어입니다.Point IHTML의 구성 요소 텍스트 컨텐츠 태그: 요소의 특징을..