Python — мощный и популярный язык программирования, который широко применяется во многих сферах. С помощью Python можно собирать и анализировать информацию, что особенно полезно в области веб-скрапинга — извлечения данных с веб-страниц.
В этой статье мы рассмотрим, как с использованием Python извлечь заголовки и текст статей с новостного сайта. На примере одного из популярных новостных порталов разберемся, как получить необходимую информацию.
Для начала нам потребуется библиотека BeautifulSoup, которая позволяет парсить HTML-код в удобный для работы с ним формат. Установим ее с помощью команды:
pip install beautifulsoup4
Также нам понадобится библиотека requests для отправки HTTP-запросов. Установим ее с помощью команды:
pip install requests
Теперь, когда все необходимые библиотеки установлены, мы можем приступить к написанию кода. Начнем с импорта библиотек и создания функции для получения заголовков и текста статей.
«`python
import requests
from bs4 import BeautifulSoup
def get_articles(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, ‘html.parser’)
articles = []
for article in soup.find_all(‘article’):
title = article.find(‘h2’).text
text = article.find(‘p’).text
articles.append({‘title’: title, ‘text’: text})
return articles
«`
Функция get_articles принимает URL новостного сайта и возвращает список словарей, каждый из которых содержит заголовок и текст статьи.
Теперь, когда у нас есть функция, мы можем ее вызвать и передать URL сайта:
«`python
articles = get_articles(‘https://example.com/news’)
«`
После выполнения этого кода, в переменной articles будет содержаться список статей, которые мы получили с сайта.
Далее мы можем использовать эти данные по своему усмотрению. Например, можно сохранить статьи в базе данных, проанализировать текст с помощью инструментов обработки естественного языка или просто вывести их на экран.
В этой статье мы рассмотрели, как использовать Python для извлечения заголовков и текста статей с новостного сайта. С помощью библиотеки BeautifulSoup и модуля requests мы смогли получить необходимую информацию и использовать ее по своему усмотрению. Надеюсь, эта статья была полезной для вас!