网站源码爬取(python,求一个简单的selenium+re的网页源码爬取)

2025-04-01 08:50:01 0

网站源码爬取(python,求一个简单的selenium+re的网页源码爬取)

本文目录

python,求一个简单的selenium+re的网页源码爬取

网页爬取不一定要用Selenium,Selenium是为了注入浏览器获取点击行为的调试工具,如果网页无需人工交互就可以抓取,不建议你使用selenium。要使用它,你需要安装一个工具软件,使用Chrome浏览器需要下载chromedriver.exe到system32下,如使用firefox则要下载geckodriver.exe到system32下。下面以chromedriver驱动chrome为例:

# -*- coding:UTF-8 -*-from selenium import webdriverfrom bs4 import BeautifulSoupimport reimport timeif __name__ == ’__main__’: options = webdriver.ChromeOptions() options.add_argument(’user-agent=“Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19“’) driver = webdriver.Chrome() driver.get(’url’)#你要抓取百度文库的URL,随便找个几十页的替换掉 html = driver.page_source bf1 = BeautifulSoup(html, ’lxml’) result = bf1.find_all(class_=’rtcspage’) bf2 = BeautifulSoup(str(result), ’lxml’) title = bf2.div.div.h1.string pagenum = bf2.find_all(class_=’size’) pagenum = BeautifulSoup(str(pagenum), ’lxml’).span.string pagepattern = re.compile(’页数:(\d+)页’) num = int(pagepattern.findall(pagenum)) print(’文章标题:%s’ % title) print(’文章页数:%d’ % num) while True: num = num / 5.0 html = driver.page_source bf1 = BeautifulSoup(html, ’lxml’) result = bf1.find_all(class_=’rtcspage’) for each_result in result: bf2 = BeautifulSoup(str(each_result), ’lxml’) texts = bf2.find_all(’p’) for each_text in texts: main_body = BeautifulSoup(str(each_text), ’lxml’) for each in main_body.find_all(True): if each.name == ’span’: print(each.string.replace(’\xa0’,’’),end=’’) elif each.name == ’br’: print(’’) print(’\n’) if num 》 1: page = driver.find_elements_by_xpath(“//div“) nextpage.click() time.sleep(3) else: break

执行代码,chromedriver自动为你打开chrome浏览器,此时你翻页到最后,点击阅读更多,然后等一段时间后关闭浏览器,代码继续执行。

Python怎么爬取证才通这家网站的源码

不知道你是用框架还是用 Selenium 爬的内容, iframe 里的内容实际上就是另一个网页了。你只是爬它的源码是爬不到的, 你要提取 iframe 里的 src 所指向的网址, 重新打开它, 然后才爬他的源码。 或者如果你用框架, 里面应该有另外提供方法, 读取 iframe 中的内容

python怎么爬取网页源代码

#!/usr/bin/env python3#-*- coding=utf-8 -*-import urllib3if __name__ == ’__main__’: 需要安装urllib3,py版本3.43

python3.9在网页源代码中爬取的汉字代码如何转换回汉字

以前总是觉得,爬虫是个很高大上的东西,就像盗取别人的数据一样。现在才知道,爬虫能爬到的,都是网页上能看到的,说白了就是别人给你看的。所谓爬虫,就是先获取网页的源代码,然后从源代码中筛选出自己想要的资源,比如网页上的图片、视频等文件,甚至网页上的文字。接下来,我们就用Python来爬取网页上的图片。首先我们先获取网站的源码。然后就是从万千的源码中解析出自己想要的资源了,我这里想要的是网站上的图片。个人觉得,这个爬虫考验的,还是正则表达式的功底,怎么写好正则表达式,才能将所有想要的资源都解析出来,其他的都比较简单。以下是我从网页上爬下来的部分图片。

新手求助:爬一个网页发现爬下来的网页源码

隐藏的源代码?不知道你指的是什么?我的理解有两种,一是不在前段显示,但是查看源代码时有,二是,异步加载的内容在前端和源代码中均看不到,第一种很容易解决,想必你指的时第二种,解决方法有三种:

  • 模拟浏览器,动态获取,可以使用大杀器selenium工具

    使用这种方法可以实现只要能看到就能抓取到,如鼠标滑过,异步加载等,因为他的行为可以与浏览器一模一样,但是这种方式的效率却是最低的,一般不到实在没有办法的时候不推荐使用。

  • 执行js代码

    在python中执行异步加载的js代码,获得一些诸如鼠标滑过,下拉加载更多等,但是现在的网站中都有非常多的js代码,要找到需要执行的目标js代码时非常困难和耗时的,此外python对js的兼容性也不是很好,也不推荐使用。

  • 找到异步加载的json文件,最常用,最方便,最好用的方法,这是我平常抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。具体的使用方法是打开浏览器的开发者工具,转到network选项,之后重新加载网页,在network中的列表中找到加载过程中加载的需要动态异步加载的json文件,以京东为例,如图,第一张找到的是异步加载的库存信息的json文件,第二招找到的是异步加载的评论信息的json文件:

  • 具体更详细的方法可以google或百度

网站源码爬取(python,求一个简单的selenium+re的网页源码爬取)

本文编辑:admin

更多文章:


vue企业门户网站模板(如何用 Vue.js 实现一个建站应用)

vue企业门户网站模板(如何用 Vue.js 实现一个建站应用)

本文目录如何用 Vue.js 实现一个建站应用用vue单页面做官网的必要性如何用 Vue.js 实现一个建站应用需求获取需求是开始项目的第一步。一般来说建站工具大多提供以下功能:提供模板主题色丰富的功能模块,如图文、轮播、相册等模块可以拖拽

2025年2月16日 09:30

extjs dataview(Ext.Net DataView 显示图片,每行只能显示一张图,想要一行多显示几列,要怎么做急,在线等)

extjs dataview(Ext.Net DataView 显示图片,每行只能显示一张图,想要一行多显示几列,要怎么做急,在线等)

本文目录Ext.Net DataView 显示图片,每行只能显示一张图,想要一行多显示几列,要怎么做急,在线等Extjs 3 dataview 如何加选中的样式分析Ext.DataView结合Ext.Panel是怎么样输出数据Ext.Net

2025年3月16日 07:30

pledge to(pledging是什么意思)

pledge to(pledging是什么意思)

本文目录pledging是什么意思pledge todo的造句有那些pledge to doingmake a commitment to do sth.是什么意思pledge用不用被动语态有何区别啊都是保证保守秘密 You must be

2025年2月18日 12:00

soapui接口测试教程(接口测试难学吗自学可以学会吗)

soapui接口测试教程(接口测试难学吗自学可以学会吗)

本文目录接口测试难学吗自学可以学会吗接口测试,你会选用那个工具软件测试工具都有哪些软件测试主要会学习那些内容,工作好找吗接口测试难学吗自学可以学会吗测试有黑盒测试、白盒测试,黑盒测试把测试对象作为一个完全未知东西对待,输入接口所需的参数值,

2025年2月8日 22:40

表单提交get和post的区别(表单的提交有两种方式:GET和POST,这两种方式的区别是什么)

表单提交get和post的区别(表单的提交有两种方式:GET和POST,这两种方式的区别是什么)

本文目录表单的提交有两种方式:GET和POST,这两种方式的区别是什么表单中get与post提交方式的区别表单中get和post提交方式的区别表单提交的get方法和post方法的区别get提交和post提交的区别表单的提交有两种方式:GET

2025年2月23日 17:00

terrified是什么意思(terrified是什么意思)

terrified是什么意思(terrified是什么意思)

本文目录terrified是什么意思be terrified at 和be terrified of 有什么区别terrified,for请问frightened/scared/terrified/afraid的区别terrified与 t

2025年3月19日 04:40

springboot是微服务吗(前端SVE springboot+vue+element 这几个是做什么的)

springboot是微服务吗(前端SVE springboot+vue+element 这几个是做什么的)

本文目录前端SVE springboot+vue+element 这几个是做什么的为什么选择spring boot作为微服务微服务一定要用springboot吗如何理解spring boot中的微服务架构的体现为什么选择spring boo

2025年3月16日 05:00

免费ppt模版(免费的PPT模板及精美PPT设计制作的教程,有什么好的推荐吗)

免费ppt模版(免费的PPT模板及精美PPT设计制作的教程,有什么好的推荐吗)

本文目录免费的PPT模板及精美PPT设计制作的教程,有什么好的推荐吗有哪些教育类的免费PPT模板值得推荐免费的PPT模板及精美PPT设计制作的教程,有什么好的推荐吗感谢邀请、干货分享、绝不私藏 ~我是明哥,前麦肯锡战略咨询顾问,埃森哲管理咨

2025年3月2日 00:00

日志分析系统(日志分析系统硬件配置啥配置求各位大牛解答一下)

日志分析系统(日志分析系统硬件配置啥配置求各位大牛解答一下)

本文目录日志分析系统硬件配置啥配置求各位大牛解答一下网络安全审计产品是什么网站公安局备案要的!如何分析windows系统日志elk日志分析平台是什么意思日志分析系统硬件配置啥配置求各位大牛解答一下1.系统概述2、安装过程安装java环境3、

2025年2月24日 18:40

如何使用FTP上传文件?用putty怎么上传网站到linux vps服务器

如何使用FTP上传文件?用putty怎么上传网站到linux vps服务器

本文目录如何使用FTP上传文件用putty怎么上传网站到linux vps服务器如何上传文件到天翼云利用psftp怎么把windows里的文件发送给linux服务器把文件上传到Linux服务器,除了下载winscp,还有什么别的办法吗如何使

2025年4月5日 03:50

html5语义化标签(HTML5的语义化标签有哪些,作用是什么)

html5语义化标签(HTML5的语义化标签有哪些,作用是什么)

本文目录HTML5的语义化标签有哪些,作用是什么怎样理解HTML5和CSS3的语义化标签html5的语义化标签有哪些html5的语义化标签有哪些及其作用html语义化标签有哪些H5的语义化标签新特性应该如何使用在html5中有哪些语义化标记

2025年3月10日 22:40

columnar(columnar是什么意思,柱状翻译)

columnar(columnar是什么意思,柱状翻译)

本文目录columnar是什么意思,柱状翻译lamello-columnar是什么意思columnar是什么意思,柱状翻译翻译如下columnaradj.柱形的,筒形的,分纵栏印刷或书写的例句Simple columnar epitheli

2025年3月14日 04:10

什么是快乐星球什么梗抖音(你有没有网上很火却不明白的梗)

什么是快乐星球什么梗抖音(你有没有网上很火却不明白的梗)

本文目录你有没有网上很火却不明白的梗“什么是快乐星球”有什么底蕴吗为什么能够火起来你有没有网上很火却不明白的梗话说已经2021年了,对于每天刷微博抖音的我来说,有些梗看不懂的时候,只能百度一下,但是有些梗依然不懂……比如: 1、0到1是什么

2025年2月25日 08:00

md5用什么打开(7zmd5怎么打开)

md5用什么打开(7zmd5怎么打开)

本文目录7zmd5怎么打开电脑上有的文件是 exe bin rtf md5 结尾的要用什么打开 还有如下的毛病7zmd5怎么打开使用记事本打开。首先准备好你要打开的md5文件,鼠标右键点击打开方式。选择使用记事本,点击下方的确认。最后将成功

2025年3月24日 01:40

friendship band(什么意思什么问号回答什么friendship band)

friendship band(什么意思什么问号回答什么friendship band)

本文目录什么意思什么问号回答什么friendship band“friendship band”是什么意思什么意思什么问号回答什么friendship bandfriendshipband的意思是友谊乐队。例句:组建一个友谊乐队你还需要什么

2025年2月10日 23:00

excel减法函数(Excel 函数的加减乘除公式各是什么)

excel减法函数(Excel 函数的加减乘除公式各是什么)

本文目录Excel 函数的加减乘除公式各是什么Excel表格当中的减法函数应该如何进行操作Excel电子表格中的减法函数是什么啊在excel中,减法的函数公式是哪一个excel表格自动减法公式EXCEL表格加减公式EXCEL中加减乘除的公式

2025年2月15日 04:40

新闻管理系统需求分析(寻 新闻发布系统)

新闻管理系统需求分析(寻 新闻发布系统)

本文目录寻 新闻发布系统毕业论文asp新闻发布系统求asp.net的新闻管理程序网站建设方案模板新闻管理系统有什么优点,它有什么研究意义新闻管理系统参考文献寻 新闻发布系统摘要:我们从学校的实际情况出发,经过对学校有关新闻发布事项的一番考察

2025年3月12日 22:40

a8源码论坛(a8是不是八核)

a8源码论坛(a8是不是八核)

本文目录a8是不是八核OPPO a8想升级ARM的学习问题 我是自动化专业 已经自学了AVR单片机了,现在想学ARM请问如何屏蔽网页中的查看源文件(源代码)如何做一个自己的论坛呢怎么建bbs论坛免费的那种 请高手指教 越详细越好~~网站代码

2025年3月6日 07:10

编程培训班学费(python培训班学费一般多少)

编程培训班学费(python培训班学费一般多少)

本文目录python培训班学费一般多少给孩子报个编程班,一般收费情况怎么样python培训班学费一般多少python培训费用相对来说较高,在培训机构学习python一般是需要一万元到两万元的学费,学习时间大概是4-5个月左右。但是学完pyt

2025年2月23日 12:10

ps抠图素材(ps免抠图素材网站有哪些)

ps抠图素材(ps免抠图素材网站有哪些)

本文目录ps免抠图素材网站有哪些如何使用ps ps素材 如何用ps抠图ps如何根据颜色来抠图用ps要怎么扣复杂图形ps怎么抠图做白底图ps怎么抠图效果好ps免抠图素材网站有哪些ps免抠图素材网站有以下几个网站:1.花猫素材网,每天可以免费下

2025年3月16日 01:40

近期文章

本站热文

harbor,port,pier的区别?谁能解释“harbour“(港口)与“pier“(码头)的区别
2025-02-22 17:40:03 浏览:18
ibatis foreach(ibatis 批量update操作)
2025-02-10 23:40:06 浏览:7
endless rain(endless rain表达什么情感)
2025-02-14 06:00:02 浏览:6
标签列表

热门搜索