当前位置：首页 > Web开发 > 正文

网页爬虫教程

2024-03-31 Web开发

一个简单的网页爬虫：

简单的网页爬虫，获取豆瓣的最新电影信息。

爬虫主要是获取页面，然后对页面进行解析，解析出自己所需要的信息进行进一步分析和挖掘。

首先需要学习python的正则表达式：

解析的url:

查看网页源代码，，分析要解析的地方：

技术图片

得到资源信息：

1.电影图片

2.电影标题

3.电影评分

4.电影票信息

抓取结果为：

技术图片

python实现代码为：

#!/usr/bin/env python #coding=utf-8 import urllib import urllib2 import re import pymongo def getHtml(url): page=urllib2.urlopen(url) html=page.read() page.close() return html def getContent(html): reg=r‘<li>.+?src="(.+?\.jpg)".+?</li>.+?class="title".+?
>(.+?)</a>.+?class="rating".+?class="subject-rate">(.+?)</span>.+?<a>(.+?)</a>‘ contentre=re.compile(reg,re.DOTALL) contentlist=contentre.findall(html) return contentlist def getConnection(): #拿到数据库连接 conn=pymongo.Connection(‘localhost‘,27017) return conn def saveToDB(contentlist): #存储至mongodb数据库中 conn=getConnection() db=conn.db t_movie=db.t_movie for content in contentlist: value=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3]) t_movie.save(value) def display(contentlist): for content in contentlist: #values=dict(poster=content[0],title=content[1],rating=content[2],ticket_btn=content[3]) print ‘poster‘,‘\t‘,content[0] print ‘title‘,‘\t‘,content[1] print ‘rating‘,‘\t‘,content[2] print ‘ticket_btn‘,‘\t‘,content[3] print‘..............................................................................‘ if __name__=="__main__": url="http://movie.douban.com/" html=getHtml(url) #print html contentlist=getContent(html) print len(contentlist) #print contentlist display(contentlist) saveToDB(contentlist) print "finished"

上一篇：kubernetes 中服务接入istio
下一篇：phpStudy环境下composer的安装

网页爬虫教程

推荐文章

热门文章

标签

友情链接

关于本站

联系我们

特别鸣谢