일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- javascript
- 자바
- 자바스크립트
- Req
- 머신러닝
- pds
- BS
- java
- Intellij
- crawling
- SOUP
- AWS
- 정보처리기사필기
- 웹앱
- 정보처리기사
- regressor
- lombok
- APPEND
- dataframe
- 크롤링
- 정처기
- sklearn
- list
- BeautifulSoup
- request
- 백준
- 비전공자
- springboot
- ensemble
- pandas
- Today
- Total
목록크롤링 (4)
No sweet without sweat

이 옵션을 통해 크롤링을 했을 때 안보이게 할 수 있다. 끝이 나고 driver.quit() ! 출력값 :

- 컴퓨터가 컴퓨터를 제어하자 - Selenium 모듈 : 웹페이지를 제어하기위한 모듈 * 처음 시작 시 셀레니움 설치 필요 : !pip install selenium # webdriver = 웹페이지를 제어하기 위한 모듈 >> 웹 그자체가 됨 # Keys = 컴퓨터의 키보드와 같은 역할 모듈 # time = 쉬는시간을 부여한다. 1) 값 import 해오기 from selenium import webdriver as wb from selenium.webdriver.common.keys imports Keys import time 2) 크롬 드라이버 실행 3) 검색창의 위치를 알아보기 * 똑같이 f12누르고 검색창 검사하면 위치를 확인할 수 있습니다. # id : "query" ..

문제 1. 멜론 TOP 100 가수 수집 1) requests와 beautifulSoup 값 import 해오기 2) 그리고 멜론사이트는 사용자임을 확인 시켜줘야겠죠? 3) 제대로 불러와졌는지 text를 통해 확인하기 4) 우리는 원하는 값만 볼꺼기 때문에 bs에 담아줍시다 5) top 100가수를이제 가져와볼거에요 - 가수에 오른쪽 마우스 버튼 -> 검사 따로 class가 지정되어있지 않아서 그 부모 태그를 보셔야합니다. soup.select("div.ellipsis.rank02 > a") 로 값을 확인하고 singer 변수에 담아줍니다. 5-1) 갯수 확인하기 어라, top100인데 108개가 있네요 어디서 문제가 있는거겠죠? 태그에서 잘못이 있었나보네여 다시 확인해보..

1) Request 함수를 쓰기 위해서는 다른 것과 마찬가지로 import를 해와야겠죠? * 편의상 req로 했어요 2) 들어가고 싶은 페이지 요청하기 - get req.get("페이지") - 여기서 주소명 작성하실 때, https:// 까지 꼭 쓰는게 중요해요! (TMI : https:// 중 s는 securety 로 보안을 의미) - 저는 여기서 res라는 변수에 담아줬어요 3) 요청 확인 이처럼 Response [200] 이뜨면 정상적으로 페이지를 잘 받아왔다는 것을 의미합니다. 4) 요청한 페이지의 정보를 확인 - text 문제. 다음은 멜론페이지를 열어볼거에요 근데 Response [200]이 뜨지않고 406이 뜨네요. 이ㅣ는 응답을 할 수 없다는 것을 의미하는데요! 사..