スクレイピング:実際のニュースサイトのトピックリスト取得
【書式】
問題あると困るのでアドレスは架空のもので記述する。
【コード】
import requests
from bs4 import BeautifulSoup
# webページを取得して解析する
load_url="https://news.yahho.co.jp/categories/it"
html=requests.get(load_url)
soup=BeautifulSoup(html.content,"html.parser")
# classで検索範囲を絞って、その中の全てのaタグを検索して表示する。
topic=soup.find(class_="**************")
for element in topic.find_all("a"):
print(element.text)
【結果】
デジタル制限 不登校克服した小6
詐欺広告 誘われてみて見えた手口
生成AIが病気「診断」 ばらつきも
AI偽情報へ対処求める OECD声明
首相 生成AIの国際的枠組みを表明
円安が逆風 iPadの値上げは
プーさん舞台 改善策でまた物議
もっと見る
トピックスリストのclass名の取得が割と面倒。chromeのデベロッパモードで、該当箇所を選択。コード表示領域で色付けされた箇所が該当する。その中の、class タグの名称を取得する感じ。もう、全然関係ない名前になってる。