通过安装,您可以像处理Reitz中的其他库一样轻松地操作。
有两种方法可以放置元素。
css选择器
css选择器
xpath
方法名称非常简单,符合Python的优雅风格。 在此,让我简单介绍一下这两种方法:
标签名称h1
id使用显示
类使用显示
谓词表示:
标签名称
谓词
轴的定位
当您导航到元素时,必须获取有关元素中内容和属性的数据以及文本。
要获取元素属性,请执行以下操作:
也可以通过模式匹配相应的内容。
这个功能看起来像鸡肋,所以请深入研究并尝试优化。 也许可以混入github中提交。
除了一些基础操作外,该库还提供了一些人性化的操作。 例如,一键获取网页的所有超链接,对全体爬虫来说应该是福音,URL管理很容易:
内容页面通常被分页,一次很少能抓住。 这个库可以获取寻呼信息。
结果如下。
通过迭代器实现了智能发现寻呼。 一些迭代器可以通过粘贴源代码来感受。
A根据标签是否包含指定的文本来判断是否有下一页。 通常,我们的下一页用或引导。 他使用这个标记进行判断。 默认情况下,全局以列表形式存在。 我个人认为,这种方式非常不灵活,几乎没有可扩展性。 感兴趣的人请向github提交代码优化。
您可能考虑了当前js的异步加载,但该库支持js运行时。 官方说明如下。
非常简单,直接调用以下方法:
1d
发表评论