프로그래밍/Python

Python과 BeautifulSoup으로 웹페이지 파싱하기

seungdols 2014. 10. 29. 23:00

BeautifulSoup은 강력한 html 파싱도구입니다. lxml 파서와함께 사용도 가능하며, 편리합니다.


중요한건 이 편리한 파서가 파이썬과 만나서 더 강력해졌다는 거죠!!


그래서 BeautifulSoup을 활용하여 멜론차트의 제목을 파싱하는 예제를 구성해봤습니다.


라이브러리는 따로 다운로드를 하셔서 압축파일 푸시고 파이썬이 설치 된 곳에 라이브러리를 추가해주시면 됩니다.


그리고 4.0버젼 부터는 bs4 라는 명칭으로 사용 됩니다.


import urllib2
from bs4 import BeautifulSoup
#URL open
melonURL = 'http://www.melon.com/chart/index.htm'
html = urllib2.urlopen(melonURL)
#read()함수를 이용하여 html 소스를 가져옵니다.
data = html.read()
soup = BeautifulSoup(data)
#그 중에서 제목이 div 태그 안에 있는 특정 class집합을 가져옵니다.
song = soup.findAll('div', attrs={'class': 'ellipsis rank01'})

i = 0;
for li in song:
	title = li.find('a')#특정 a 태그로 이루어진 부분만 가져옵니다.
	i = i + 1
	print i, title.text#a 태그의 text 부분만 취합니다.
반응형

'프로그래밍 > Python' 카테고리의 다른 글

파이썬 파일입출력  (0) 2014.12.23
List안에 List 중첩 될 때 for 쓰는 법  (0) 2014.12.22
5장 반복문 - for  (0) 2014.07.28
5장. 반복문 - while  (0) 2014.07.28
4장 변수  (0) 2014.07.28