BeautifulSoup은 강력한 html 파싱도구입니다. lxml 파서와함께 사용도 가능하며, 편리합니다.
중요한건 이 편리한 파서가 파이썬과 만나서 더 강력해졌다는 거죠!!
그래서 BeautifulSoup을 활용하여 멜론차트의 제목을 파싱하는 예제를 구성해봤습니다.
라이브러리는 따로 다운로드를 하셔서 압축파일 푸시고 파이썬이 설치 된 곳에 라이브러리를 추가해주시면 됩니다.
그리고 4.0버젼 부터는 bs4 라는 명칭으로 사용 됩니다.
import urllib2 from bs4 import BeautifulSoup #URL open melonURL = 'http://www.melon.com/chart/index.htm' html = urllib2.urlopen(melonURL) #read()함수를 이용하여 html 소스를 가져옵니다. data = html.read() soup = BeautifulSoup(data) #그 중에서 제목이 div 태그 안에 있는 특정 class집합을 가져옵니다. song = soup.findAll('div', attrs={'class': 'ellipsis rank01'}) i = 0; for li in song: title = li.find('a')#특정 a 태그로 이루어진 부분만 가져옵니다. i = i + 1 print i, title.text#a 태그의 text 부분만 취합니다.
반응형
'프로그래밍 > Python' 카테고리의 다른 글
파이썬 파일입출력 (0) | 2014.12.23 |
---|---|
List안에 List 중첩 될 때 for 쓰는 법 (0) | 2014.12.22 |
5장 반복문 - for (0) | 2014.07.28 |
5장. 반복문 - while (0) | 2014.07.28 |
4장 변수 (0) | 2014.07.28 |