抓取超文本标记语言的主要文本内容，而不在其中包含

提问者：小点点

抓取超文本标记语言的主要文本内容，而不在其中包含<span>

我正在构建一个Python web scraper，它会遍历易贝搜索结果页面(在本例中为“游戏笔记本”)，并抓取每件待售商品的标题。我使用BeautifulSoup首先获取存储每个标题的h1标记，然后将其作为文本打印出来:

    for item_name in soup.findAll('h1', {'class': 'it-ttl'}):
    print(item_name.text)

然而，在类为“it-ttl”的每个h1标记中，还有一个span标记包含一些文本：

<h1 class="it-ttl" itemprop="name" id="itemTitle">
 <span class="g-hdn">Details about  &nbsp;</span>
 Acer - Nitro 5 15.6" Gaming Laptop - Intel Core i5 - 8GB Memory - NVIDIA GeFo…
</h1>

我当前的程序打印出span标签的内容和项目标题：我的控制台输出

有人能给我解释一下如何只抓取项目标题，而忽略包含“详细信息”文本的span标签吗？谢谢！

共2个答案

匿名用户

只需删除有问题的即可完成

item = """
<h1 class="it-ttl" itemprop="name" id="itemTitle">
 <span class="g-hdn">Details about  &nbsp;</span>
 Acer - Nitro 5 15.6" Gaming Laptop - Intel Core i5 - 8GB Memory - NVIDIA GeFo…
</h1>
"""
from bs4 import BeautifulSoup as bs
soup = bs(item,'lxml')
target = soup.select_one('h1')
target.select_one('span').decompose()
print(target.text.strip())

输出：

Acer - Nitro 5 15.6" Gaming Laptop - Intel Core i5 - 8GB Memory - NVIDIA GeFo…


                        

                
                    匿名用户

                




                
					
另一个解决方案。
from simplified_scrapy import SimplifiedDoc,req,utils
html = '''
<h1 class="it-ttl" itemprop="name" id="itemTitle">
 <span class="g-hdn">Details about  &nbsp;</span>
 Acer - Nitro 5 15.6" Gaming Laptop - Intel Core i5 - 8GB Memory - NVIDIA GeFo…
</h1>
'''
doc = SimplifiedDoc(html)
item_names = doc.selects('h1.it-ttl').span.nextText()

print(item_names)
结果:
['Acer - Nitro 5 15.6" Gaming Laptop - Intel Core i5 - 8GB Memory - NVIDIA GeFo…']
以下是更多示例。https://github.com/yiyedata/simplified-scrapy-demo/tree/master/doc_examples


		      
                相关问题
                

																                
					
										   HashMap如何识别内部数组中的哪些位置包含元素？
										   静态编程语言中@BeforeAll的正确解决方法是什么
										   包含订阅的方法被多次调用，我应该每次取消订阅旧订阅吗？
										   如何编写一个函数，使超文本传输协议请求并返回请求的结果？
										   Angular 2缓存超文本传输协议请求使用可观察对象的力量
										   角度超文本传输协议-取消订阅时请求流
										   如何在angular2使用超文本传输协议把请求？
										   在Angular的超文本传输协议中使用rxjs（）
										   我们需要在Angular中取消订阅超文本传输协议调用吗？[重复]
										   为什么函数激活记录中需要动态链接？（静态作用域语言）
										   在JAR中包含解压缩的资源-Maven
										   如何防止Spring Boot将危险控制器包含在生产配置文件中？
										   如何在gradle的测试源代码集中包含所有src/test/资源/**和src/main/java/**/*. html？
										   Gradle不包含要jar的资源文件夹[重复]
										   Jlink-包括JavaFX应用程序中包含自定义python脚本的目录
										   JavaFX Maven Plugin： com.zenjava-jfx：jar以包含所有depeden？
										   错误：缺少JavaFX运行时组件，包含IntelliJ Idea、Maven和JDK19
										   带有聚合管道的文本搜索-MongoDB/PHP
										   将EventHandler添加到VBox中包含的TilePane中包含的ImageView？
										   JavaFX：自定义ListView单元格的内容样式

抓取超文本标记语言的主要文本内容，而不在其中包含<span>

共2个答案

相关问题

热门标签

微信关注