博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
beautifulsoup用法1
阅读量:5257 次
发布时间:2019-06-14

本文共 960 字,大约阅读时间需要 3 分钟。

from bs4 import BeautifulSouphtml = """             标题                    

从前有三个小姐妹,她们的名字是

, Lacie, Tillie; 她们生活在一个井的下面

...

"""soup = BeautifulSoup(html, 'lxml')# 格式化输出# print(soup.prettify())# 打印title节点的内容# print(soup.title.string)# 选择元素 会获取到第一个匹配到的该元素# print(soup.head)# print(soup.p)# 获取元素的属性 若不是唯一属性 例如 name id 则通过attrs获取# print(soup.title.name)# print(soup.a.attrs)# print(soup.a.attrs['class'])# print(soup.a.attrs['href'])# 关联选择 如 父子 兄弟等# print(soup.p.contents)# 子节点 不拆分子孙节点# print(soup.p.children)# for i, child in enumerate(soup.p.children):# print(i, child)# 子孙节点 全部查询出来# print(soup.p.descendants)# for i, child in enumerate(soup.p.descendants):# print(i, child)# parent 唯一父元素print(soup.a.parent)# parents 祖先元素 p body html 一层一层往上print(soup.a.parents)for i, child in enumerate(soup.a.parents): print(i, child)

  

转载于:https://www.cnblogs.com/Ychao/p/9373064.html

你可能感兴趣的文章
ArcGIS Engine 中的绘制与编辑
查看>>
Oracle--通配符、Escape转义字符、模糊查询语句
查看>>
子网划分讲解及练习(一)
查看>>
c# 文件笔记
查看>>
第一页 - 工具的使用(webstorm)
查看>>
Linux 进程资源用量监控和按用户设置进程限制
查看>>
IE浏览器整页截屏程序(二)
查看>>
D3.js 之 d3-shap 简介(转)
查看>>
制作满天星空
查看>>
类和结构
查看>>
CSS3选择器(二)之属性选择器
查看>>
adidas crazylight 2018 performance analysis review
查看>>
typeset shell 用法
查看>>
python 之 循环语句
查看>>
心得25--JDK新特性9-泛型1-加深介绍
查看>>
[转]ceph网络通信模块_以monitor模块为例
查看>>
HDOJ 1754 I Hate It(线段树基本操作)
查看>>
latex tree
查看>>
安装NVIDIA驱动时禁用自带nouveau驱动
查看>>
HDU-1255 覆盖的面积 (扫描线)
查看>>