일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 자바
- BeautifulSoup
- regressor
- request
- 크롤링
- 자바스크립트
- java
- pds
- 정보처리기사필기
- javascript
- sklearn
- springboot
- BS
- pandas
- 백준
- dataframe
- 비전공자
- lombok
- Req
- ensemble
- crawling
- AWS
- 머신러닝
- 정보처리기사
- 웹앱
- APPEND
- list
- Intellij
- SOUP
- 정처기
- Today
- Total
No sweet without sweat
[크롤링] - append, Dataframe, csv, html 파일로 저장(멜론 TOP 100 가수) 본문
문제 1. 멜론 TOP 100 가수 수집
1) requests와 beautifulSoup 값 import 해오기

2) 그리고 멜론사이트는 사용자임을 확인 시켜줘야겠죠?

3) 제대로 불러와졌는지 text를 통해 확인하기

4) 우리는 원하는 값만 볼꺼기 때문에 bs에 담아줍시다

5) top 100가수를이제 가져와볼거에요
- 가수에 오른쪽 마우스 버튼 -> 검사

따로 class가 지정되어있지 않아서 그 부모 태그를 보셔야합니다.

soup.select("div.ellipsis.rank02 > a") 로 값을 확인하고 singer 변수에 담아줍니다.
5-1) 갯수 확인하기

어라, top100인데 108개가 있네요 어디서 문제가 있는거겠죠?
태그에서 잘못이 있었나보네여
다시 확인해보고 len길이 해보기

6) 반복문을 통해 select값 모두 출력하기

문제2. 노래 100곡을 추출
1) 추출할 노래가져오기

(노래제목 -> 오른쪽 마우스 클릭해서 검사

2) 출력하기

* 값이 연속적으로 출력이 되어야하는데 안되고 있네요
3) 이스케이프코드를 사용해 필요없는 개행문자 삭제하기 -strip()

3-1) len을 통해 가수, 노래 100개 확인하기 -ㅣen()

4) 이제 수집한 자료를 표, 파일로
- 값을 저장하려면 list를 만들고
- append를 통해 하나씩 추가해주시면 됩니다.


5) 데이터프레ㅣ임 생성

6) 데이터 파일로 저장

- inplace = True 는 값을 저장
to_저장하고싶은양식
으로 파일을 저장할 수 있으며, encoding ="" 이렇게 빈칸으로 비워놓으면 컴퓨터가 최적의 인코딩으로 바꿔준다
파일은 코드작성한 곳에 들어가시면 확인하실 수 있습니다.

'Crawling' 카테고리의 다른 글
Gmarket top 100 가져오기 (0) | 2022.08.19 |
---|---|
[크롤링] - chrome driver, os, mkdir, nth-child, from urllib.request import urlretrieve (0) | 2022.08.18 |
[크롤링] - Selenium, keys, tqdm (0) | 2022.08.17 |
[크롤링] - Request, Beautifulsoup (0) | 2022.08.15 |