분류 전체보기 50

선형회귀와 다항회귀

선형회귀¶KNN Regression과 Linear Regression의 차이를 알아보자¶저번에 만들어둔 KNN 회귀 모델에 기존 데이터의 범위에 없던 큰 값을 입력하면 예측이 제대로 이루어지지 않는다.해당 현상을 해결해보자.In [14]:# 데이터 준비하기import numpy as npperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, ..

KNN 회귀문제 다루기 + 과소적합문제 해결

지도학습 알고리즘은 분류와 회귀로 나뉜다.KNN으로 회귀문제를 해결해보자.KNN으로 회귀문제(새로운 샘플의 값을 예측)를 해결하는 방법은이웃 샘플의 타깃값의 평균을 구하는 것이다.In [4]:# 훈련 데이터를 준비한다import numpy as npperch_length = np.array([8.4, 13.7, 15.0, 16.2, 17.4, 18.0, 18.7, 19.0, 19.6, 20.0, 21.0, 21.0, 21.0, 21.3, 22.0, 22.0, 22.0, 22.0, 22.0, 22.5, 22.5, 22.7, 23.0, 23.5, 24.0, 24.0, 24.6, 25.0, 25.6, 26.5, 27.3, 27.5, 27.5, 27.5, 28.0, 28.7, 3..

VSCode와 Jupyter Notebook의 차이

최근 들어 Visual Studio Code(VSCode)를 활용해 Python 작업을 하면서 한 가지 의문이 떠올랐다.VSCode에서는 Jupyter Notebook과 같은 .ipynb 파일을 사용할 수 있다.그렇다면 과연 VSCode가 Jupyter Notebook을 완전히 대체할 수 있을까?라는 생각이 들었습니다.대부분의 기능을 사용할 수 있는 VSCode가 아닌 Jupyter Notebook을 사용하는 메리트는 무엇일까..이를 해결하기 위해 이것저것 알아보았다.1. 로컬 개발 환경과 IPython Notebook의 시작책으로 공부를 하던 중, "로컬 개발 환경"이라는 용어가 나왔다.이 용어가 구체적으로 무엇을 의미하는지, 그리고 Jupyter Notebook의 장점은 무엇인지 먼저 정리할 필요가 ..

데이터 분석 2024.12.06

훈련 세트와 테스트 세트 추출하기

fit()에 사용한 데이터로 score()을 수행하면 모델은 데이터를 100% 판별할 수 밖에 없다.데이터를 훈련 세트와 테스트 세트로 나누어 모델을 훈련하고, 평가해보자. import numpy as npimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsClassifier 필요한 라이브러리 및 클래스를 import 한다.  # 도미와 빙어 데이터 준비fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,                 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, ..

사이킷런 KNN모델로 데이터 분류하기

# 도미 데이터 준비bream_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0,                 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0,                 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0]bream_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, 500.0, 390.0, 450.0, 500.0, 475.0, 500.0,                 500.0, 340.0, ..

[AI개발자 부트캠프 Elice] Selenium심화, 브라우저 제어

1. 브라우저 제어Q. 브라우저 제어는 왜 해야할까요?로그인 자동화로그인 후에만 나오는 웹 페이지 분석을 위해ID와 비밀번호 입력 후 로그인 버튼 클릭 (또는 엔터키 입력)드랍다운 버튼 클릭드랍다운 버튼을 클릭해야만 나오는 요소의 추출을 위해드랍다운 버튼을 찾아서 클릭→ 답은 Selenium입니다!!  2. 브라우저 로딩 기다리기브라우저 로딩이 지연되는 경우가 있습니다.이럴 때는 어떻게 해야할까요?Point Itime.sleep(n): 무조건 기다리기import timewith webdriver.Firefox() as driver: driver.get(url) # 웹페이지 로딩 time.sleep(10) # 10초간 기다리기 e = driver.find_element() ...

[AI개발자 부트캠프 Elice] 웹 스크래핑과 Selenium

1. 웹 스크래핑과 Selenium웹 스크래핑이란, 웹사이트에서 원하는 데이터를 수집하고 가공하는 행위입니다.Selenium은 웹 테스트 자동화 도구로, 파이썬(또는 자바) 라이브러리로 사용합니다. Selenium은 브라우저를 제어하는 기능이 있어 웹 스크래핑에 용이합니다.  2. 태그 이름으로 요소 찾기Point ISelenium 공통 설정from selenium import webdriverfrom selenium.webdriver.common.by import Bydriver = webdriver.Firefox() # 실행 브라우저driver.get('https://news.naver.com')...driver.quit()해당 프로그램을 수행할 브라우저를 선택하여 실행하며, 다양한 브라우저 (ex...

[AI개발자 부트캠프 Elice] HTML훑어보기

1. 크롤링에 관하여Web Crawler: 수많은 웹사이트를 탐험하며 페이지를 수집하는 시스템으로, Web Spider라고도 합니다.Web Scrapping: 특정 웹 페이지 내용 중 원하는 부분을 내가 원하는 형식으로 만드는 것을 말합니다. 웹 페이지 작성 규칙을 따르며 정리할 수 있습니다.크롤링 기술을 배우기 위한 발판이 스크래핑이고, 스크래핑을 배우기 전에 웹(Web)에 대한 지식이 선행되어야 합니다. 따라서 이번 장에서는 웹의 설계도인 HTML에 대해 학습했습니다.  2. HTML이란?HTML이란 Hyper Text Markup Language의 약자로, 웹사이트에서 눈에 보이는 정보나 특정 구역을 설정할 때 사용하는 언어입니다.Point IHTML의 구성 요소 텍스트 컨텐츠 태그: 요소의 특징을..

비선형 데이터 분류(XORgate)

많은 실생활 데이터는 선형분류기로 분류가 되지 않는 문제점이 있었고,비선형 데이터를 처리하기 위한 분류기의 필요성으로 XORgate가 논의되었다.당시에는 XORgate같은 비선형 데이터를 처리할 수 없었고, 이는 인공지능의 1차 빙하기를 야기한다.   비선형적 문제의 해결을 위해 '단층 퍼셉트론'이 아닌,단층 퍼셉트론을 쌓은 '다층 퍼셉트론'을 사용하게 되었다.(NANDgate와 ORgate의 선형분류기를 사용. 위 그림 오른쪽) 간단한 퍼셉트론 여러개를 연결하면 복잡한 퍼셉트론을 만들 수 있다.여기서 입력층과 출력층 사이에 숨겨진 레이어를 HiddenLayer라고 하고,일반적으로 히든층이 많아질 수록 모델의 복잡도가 올라간다.  아래는 파이썬으로 구현한 XORgate이다.import numpy as n..

딥러닝 2024.11.20