Python과 BeautifulSoup으로 웹페이지 파싱하기

프로그래밍/Python

Python과 BeautifulSoup으로 웹페이지 파싱하기

seungdols 2014. 10. 29. 23:00

BeautifulSoup은 강력한 html 파싱도구입니다. lxml 파서와함께 사용도 가능하며, 편리합니다.

중요한건 이 편리한 파서가 파이썬과 만나서 더 강력해졌다는 거죠!!

그래서 BeautifulSoup을 활용하여 멜론차트의 제목을 파싱하는 예제를 구성해봤습니다.

라이브러리는 따로 다운로드를 하셔서 압축파일 푸시고 파이썬이 설치 된 곳에 라이브러리를 추가해주시면 됩니다.

그리고 4.0버젼 부터는 bs4 라는 명칭으로 사용 됩니다.

import urllib2
from bs4 import BeautifulSoup
#URL open
melonURL = 'http://www.melon.com/chart/index.htm'
html = urllib2.urlopen(melonURL)
#read()함수를 이용하여 html 소스를 가져옵니다.
data = html.read()
soup = BeautifulSoup(data)
#그 중에서 제목이 div 태그 안에 있는 특정 class집합을 가져옵니다.
song = soup.findAll('div', attrs={'class': 'ellipsis rank01'})

i = 0;
for li in song:
	title = li.find('a')#특정 a 태그로 이루어진 부분만 가져옵니다.
	i = i + 1
	print i, title.text#a 태그의 text 부분만 취합니다.

저작자표시

'프로그래밍 > Python' 카테고리의 다른 글

파이썬 파일입출력 (0)	2014.12.23
List안에 List 중첩 될 때 for 쓰는 법 (0)	2014.12.22
5장 반복문 - for (0)	2014.07.28
5장. 반복문 - while (0)	2014.07.28
4장 변수 (0)	2014.07.28

현재글Python과 BeautifulSoup으로 웹페이지 파싱하기

프로그래밍에 욕심이 조금 납니다.

위클리뉴스, 개발자뉴스, 루비 프로그래밍, 책 리뷰, developers, 승돌즈, 개발자, SQL, Tech, 드라마, JavaScript, 개발뉴스, 그냥 저냥 위클리뉴스, 영화, 프로그래밍, db, 책, Java, oracle, 파이썬,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Seungdols Company

Python과 BeautifulSoup으로 웹페이지 파싱하기

'프로그래밍 > Python' 카테고리의 다른 글

'프로그래밍/Python'의 다른글

티스토리툴바

Python과 BeautifulSoup으로 웹페이지 파싱하기

'프로그래밍 > Python' 카테고리의 다른 글

'프로그래밍/Python'의 다른글

관련글

티스토리툴바