ChatGPTとPythonで学ぶ！APIを使った高度なデータ収集と自動化

APIの活用は、プログラミングにおいて重要なスキルの一つです。前回の記事「【プログラミング】ChatGPTと進めるAPI学習の基本」では、APIの基礎について学びました。今回は、さらに一歩進んで、ChatGPTとPythonを使ってAPIから複数ページにわたるデータ収集やエラーハンドリング、そして自動化までを行う方法を解説します。このステップでは、より高度なデータ処理技術を身につけ、実際のプロジェクトに活用できるスキルを養っていきましょう。

Pythonの始め方についてはこちらの記事を参考にしてみてください！！

参考記事

: 【初心者必見】ChatGPTで始めるPythonプログラミング入門
プログラミングを始めたいと思っているけど、プログラミングって何から始めたらいいかわからないし、プログラムを書くのは英語もできないから難しそうと思っているあなたに朗報です。ChatGPTを使って学習をす ...

ブログ内のコードはコピーして使用できます

APIとは何か？

APIは「Application Programming Interface」の略です。簡単に言うと、APIはコンピュータプログラム同士が話すためのルールです。

APIをカフェでの注文に例えてみましょう

あなた（ユーザー）: レストランのお客さん
キッチン（サービス）: 食べ物を作る場所
ウェイター（API）: あなたとキッチンをつなぐ人

レストランで食事を注文する時、あなたはウェイターに「パスタをください」と伝えます。ウェイターはそのメッセージをキッチンに伝え、キッチンでパスタが作られます。パスタができたら、ウェイターはそれをあなたに届けます。

APIはこの「ウェイター」のような役割を果たします。

あなた（プログラム）はAPIを通じて他のプログラム（サービス）に何かをお願いしたり、情報を取り出したりします。
APIはそのお願いを受け取って、必要な情報を持ってきたり、指示を実行したりします。

: 【プログラミング】ChatGPTと進めるAPI学習の基本
前回の記事では、ChatGPTを使いながらPythonでのスクレイピングを実践し、練習用サイトからデータを取得し簡単な分析を行いました。まだご覧になっていない方は、ぜひこちらの記事をご覧ください：【プ ...

APIを使った高度なデータ処理

目標

Hacker News APIを使用して、より複雑なデータ収集や処理を行います。具体的には、複数ページにわたるデータの収集、エラーハンドリング、データの自動化について学びます。

今回使用するAPI

サイト：Hacker News

APIはこちらから→Hacker News API

複数ページにわたるデータ収集

Hacker News APIは、基本的には単一ページで完結するデータを返しますが、特定のリクエストで複数のIDを取得し、それを基に詳細なデータを取得することが可能です。

Hacker Newsのトップストーリーを収集

まずは、トップストーリーのIDを取得し、それぞれのストーリーの詳細データを収集する方法を紹介します。

import requests

# Hacker News APIのトップストーリーのエンドポイント
top_stories_url = 'https://hacker-news.firebaseio.com/v0/topstories.json'

# トップストーリーのIDを取得
response = requests.get(top_stories_url)
story_ids = response.json()

# 詳細データを取得するためのリスト
all_data = []

# 例として最初の10件のストーリーのデータを取得
for story_id in story_ids[:10]:
    story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'
    story_response = requests.get(story_url)
    if story_response.status_code == 200:
        story_data = story_response.json()
        all_data.append(story_data)
    else:
        print(f"エラーが発生しました: ストーリーID {story_id}")

print(f"取得したデータ数: {len(all_data)}")
for story in all_data:
    print(f"タイトル: {story.get('title')}, URL: {story.get('url')}")

import requests

# Hacker News APIのトップストーリーのエンドポイント

top_stories_url = 'https://hacker-news.firebaseio.com/v0/topstories.json'

# トップストーリーのIDを取得

response = requests.get(top_stories_url)

story_ids = response.json()

# 詳細データを取得するためのリスト

all_data = []

# 例として最初の10件のストーリーのデータを取得

for story_id in story_ids[:10]:

story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'

story_response = requests.get(story_url)

if story_response.status_code == 200:

story_data = story_response.json()

all_data.append(story_data)

else:

print(f"エラーが発生しました: ストーリーID {story_id}")

print(f"取得したデータ数: {len(all_data)}")

for story in all_data:

print(f"タイトル: {story.get('title')}, URL: {story.get('url')}")

ポイント

APIリクエストで複数のIDを取得:
- Hacker NewsのトップストーリーのID一覧を取得するAPIエンドポイントからデータを取得します。この段階では、ストーリーのIDのみが取得されます。
IDを基に詳細データを収集:
- 取得したストーリーIDを使って、各ストーリーの詳細データを再度APIリクエストで取得します。このように、1つのリクエストで複数のIDを取得し、それぞれのIDを基に詳細なデータを別々に取得するプロセスが複数ページにわたるデータ収集のポイントです。
データの集約:
- 取得した各ストーリーの詳細データをリストに保存し、一括で処理や表示を行います。このステップでは、複数のリクエストから得られたデータをまとめて管理する方法を学びます。
エラーチェック:
- APIリクエストが失敗した場合（例: サーバーの応答が

広告募集中

出力

取得したデータ数: 10
タイトル: Adding 16 KB Page Size to Android, URL: https://android-developers.googleblog.com/2024/08/adding-16-kb-page-size-to-android.html
タイトル: SurrealEngine: Open-source reimplementation of Unreal Engine with playable UT99, URL: https://github.com/dpjudas/SurrealEngine
タイトル: Launch HN: Moonglow (YC S24) – Serverless Jupyter Notebooks, URL: None
タイトル: Vega – A declarative language for interactive visualization designs, URL: https://vega.github.io/vega/
タイトル: Playing Sudoku in TypeScript while the type checker highlights mistakes, URL: https://github.com/gruhn/typescript-sudoku
タイトル: My IRC client runs on Kubernetes, URL: https://xeiaso.net/blog/2024/k8s-irc-client/
タイトル: We need to liberate the Postcode Address File, URL: https://takes.jamesomalley.co.uk/p/secret-paf-report
タイトル: Cautionary tale on using Chase bank for indie business, URL: https://jxnl.co/writing/2024/09/21/chase-bank-small-business-nightmare/
タイトル: Nanolog supports logging with 7 ns median latency, URL: https://github.com/PlatformLab/NanoLog
タイトル: 17-Year-Old Student Exposes Germany's 'Secret' Pirate Site Blocklist, URL: https://torrentfreak.com/17-year-old-student-exposes-germanys-secret-pirate-site-blocklist-240822/

取得したデータ数: 10

タイトル: Adding 16 KB Page Size to Android, URL: https://android-developers.googleblog.com/2024/08/adding-16-kb-page-size-to-android.html

タイトル: SurrealEngine: Open-source reimplementation of Unreal Engine with playable UT99, URL: https://github.com/dpjudas/SurrealEngine

タイトル: Launch HN: Moonglow (YC S24) – Serverless Jupyter Notebooks, URL: None

タイトル: Vega – A declarative language for interactive visualization designs, URL: https://vega.github.io/vega/

タイトル: Playing Sudoku in TypeScript while the type checker highlights mistakes, URL: https://github.com/gruhn/typescript-sudoku

タイトル: My IRC client runs on Kubernetes, URL: https://xeiaso.net/blog/2024/k8s-irc-client/

タイトル: We need to liberate the Postcode Address File, URL: https://takes.jamesomalley.co.uk/p/secret-paf-report

タイトル: Cautionary tale on using Chase bank for indie business, URL: https://jxnl.co/writing/2024/09/21/chase-bank-small-business-nightmare/

タイトル: Nanolog supports logging with 7 ns median latency, URL: https://github.com/PlatformLab/NanoLog

タイトル: 17-Year-Old Student Exposes Germany's 'Secret' Pirate Site Blocklist, URL: https://torrentfreak.com/17-year-old-student-exposes-germanys-secret-pirate-site-blocklist-240822/

エラーハンドリング

APIリクエストを行う際、ネットワークの問題やAPIの制限でエラーが発生することがあります。そのようなエラーに対処するための基本的なエラーハンドリングを導入します。

import requests

def fetch_story_data(story_id):
    try:
        story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'
        response = requests.get(story_url, timeout=5)
        response.raise_for_status()
        return response.json()
    except requests.exceptions.HTTPError as errh:
        print(f"HTTPエラーが発生しました: {errh}")
    except requests.exceptions.ConnectionError as errc:
        print(f"接続エラーが発生しました: {errc}")
    except requests.exceptions.Timeout as errt:
        print(f"タイムアウトエラーが発生しました: {errt}")
    except requests.exceptions.RequestException as err:
        print(f"リクエストエラーが発生しました: {err}")
    return None

# エラーハンドリングを加えたストーリーのデータ取得
all_data = [fetch_story_data(story_id) for story_id in story_ids[:10] if fetch_story_data(story_id)]
print(f"取得したデータ数: {len(all_data)}")

import requests

def fetch_story_data(story_id):

try:

story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'

response = requests.get(story_url, timeout=5)

response.raise_for_status()

return response.json()

except requests.exceptions.HTTPError as errh:

print(f"HTTPエラーが発生しました: {errh}")

except requests.exceptions.ConnectionError as errc:

print(f"接続エラーが発生しました: {errc}")

except requests.exceptions.Timeout as errt:

print(f"タイムアウトエラーが発生しました: {errt}")

except requests.exceptions.RequestException as err:

print(f"リクエストエラーが発生しました: {err}")

return None

# エラーハンドリングを加えたストーリーのデータ取得

all_data = [fetch_story_data(story_id) for story_id in story_ids[:10] if fetch_story_data(story_id)]

print(f"取得したデータ数: {len(all_data)}")

ポイント

APIリクエストとエラーハンドリング:
- fetch_story_data 関数でAPIリクエストを実行し、エラーが発生した場合に適切に処理します。これにより、ネットワークエラーやタイムアウトエラーなどが発生しても、プログラムが停止しないようにします。
データの一括取得:
- リスト内包表記を使って、複数のストーリーIDから一括でデータを取得します。エラーが発生した場合、そのデータはスキップされます。
データの確認:
- 取得したデータの数を出力して、どれだけのデータが正しく取得できたかを確認します。

データ収集の自動化

このスクリプトを定期的に実行し、新しいストーリーを自動的に収集・保存するためのスクリプトを作成します。ここでは、time.sleep()を使って一定時間ごとにデータを収集します。

使用するライブラリ

1. import requests

役割: requestsは、PythonでHTTPリクエストを送信するためのライブラリです。ウェブサイトやAPIからデータを取得するために使用します。
用途: このコードでは、Hacker News APIにリクエストを送信して、ストーリーのデータを取得するために使われています。requests.get()メソッドを使用して、指定したURLからデータを取得します。

2. import time

役割: timeは、Pythonで時間に関連する操作を行うための標準ライブラリです。プログラムの実行を一定時間停止したり、現在の時間を取得したりすることができます。
用途: このコードでは、time.sleep(3600)を使用して、プログラムの実行を1時間（3600秒）停止させています。これにより、定期的にデータを収集する機能を実現しています。

3. import json

役割: jsonは、PythonでJSON（JavaScript Object Notation）データを操作するための標準ライブラリです。JSONは、ウェブAPIやデータ交換でよく使われる軽量のデータフォーマットです。
用途: このコードでは、APIから取得したデータをJSON形式で保存したり、ファイルから読み込んだりするために使われています。json.dump()でPythonのデータをJSONファイルに保存し、json.load()でファイルからデータを読み込むことができます。

自動的にデータを取得してJOSNファイルへ保存

import requests
import time
import json

# Hacker News APIのトップストーリーのエンドポイント
top_stories_url = 'https://hacker-news.firebaseio.com/v0/topstories.json'

def fetch_story_data(story_id):
    try:
        story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'
        response = requests.get(story_url, timeout=5)
        response.raise_for_status()
        return response.json()
    except requests.exceptions.HTTPError as errh:
        print(f"HTTPエラーが発生しました: {errh}")
    except requests.exceptions.ConnectionError as errc:
        print(f"接続エラーが発生しました: {errc}")
    except requests.exceptions.Timeout as errt:
        print(f"タイムアウトエラーが発生しました: {errt}")
    except requests.exceptions.RequestException as err:
        print(f"リクエストエラーが発生しました: {err}")
    return None

# 定期的にデータを収集し、ファイルに保存
try:
    while True:
        # トップストーリーのIDを取得
        response = requests.get(top_stories_url)
        story_ids = response.json()

        with open('hn_top_stories.json', 'w', encoding='utf-8') as file:
            top_stories = [fetch_story_data(story_id) for story_id in story_ids[:10] if fetch_story_data(story_id)]
            if top_stories:
                json.dump(top_stories, file, ensure_ascii=False, indent=2)
                print("データが保存されました。")
        time.sleep(3600)  # 1時間ごとにデータを収集

except KeyboardInterrupt:
    print("プログラムが停止されました。")

import requests

import time

import json

# Hacker News APIのトップストーリーのエンドポイント

top_stories_url = 'https://hacker-news.firebaseio.com/v0/topstories.json'

def fetch_story_data(story_id):

try:

story_url = f'https://hacker-news.firebaseio.com/v0/item/{story_id}.json'

response = requests.get(story_url, timeout=5)

response.raise_for_status()

return response.json()

except requests.exceptions.HTTPError as errh:

print(f"HTTPエラーが発生しました: {errh}")

except requests.exceptions.ConnectionError as errc:

print(f"接続エラーが発生しました: {errc}")

except requests.exceptions.Timeout as errt:

print(f"タイムアウトエラーが発生しました: {errt}")

except requests.exceptions.RequestException as err:

print(f"リクエストエラーが発生しました: {err}")

return None

# 定期的にデータを収集し、ファイルに保存

try:

while True:

# トップストーリーのIDを取得

response = requests.get(top_stories_url)

story_ids = response.json()

with open('hn_top_stories.json', 'w', encoding='utf-8') as file:

top_stories = [fetch_story_data(story_id) for story_id in story_ids[:10] if fetch_story_data(story_id)]

if top_stories:

json.dump(top_stories, file, ensure_ascii=False, indent=2)

print("データが保存されました。")

time.sleep(3600) # 1時間ごとにデータを収集

except KeyboardInterrupt:

print("プログラムが停止されました。")

ポイント

1. Hacker Newsのデータ収集

Hacker News APIを使用して、トップストーリーのIDリストを取得し、それぞれのストーリーの詳細情報（タイトル、URLなど）を収集しています。
fetch_story_data関数で、各ストーリーIDに対して個別のリクエストを送り、詳細なデータを取得します。

2. エラーハンドリング

fetch_story_data関数内で、APIリクエスト中に発生する可能性のあるさまざまなエラー（HTTPエラー、接続エラー、タイムアウトエラーなど）をキャッチし、適切なエラーメッセージを表示します。これにより、プログラムが予期せぬエラーでクラッシュするのを防ぎます。

3. データの保存

取得したストーリーデータを、hn_top_stories.jsonというJSONファイルに保存します。json.dump関数を使用して、データを整形して（インデント付き）保存し、文字エンコーディングとしてUTF-8を使用しています。

4. 定期的なデータ収集

while Trueループで、1時間ごとにデータを自動的に収集・保存します。time.sleep(3600)により、データ収集の間隔を1時間に設定しています。

5. プログラムの停止処理

try-except構文を使用して、プログラムが実行中にCtrl + C（KeyboardInterrupt）を押すと、プログラムが安全に停止するようにしています。これにより、無限ループを簡単に終了させることができます。

広告募集中

出力

JSONファイルへ保存する目的

JSONファイルは、データを効率的に管理・保存するためのフォーマットとして広く利用されています。特にプログラミングやデータ解析の分野では、シンプルで読みやすい形式が重宝され、構造化されたデータの保存や交換に最適です。このリード文では、JSONファイルの利便性と、その保存方法を解説します。特に、プログラマーやデータサイエンティストが日々の作業に役立つ情報を提供し、データ管理のスキルを向上させることを目的としています。JSONファイルを使いこなすことで、効率的なデータ処理と整理が可能になり、作業の生産性が大きく向上するでしょう。

1. JSON形式の特長

構造化データの保存: JSON（JavaScript Object Notation）は、データをキーと値のペアで保存する構造化されたデータフォーマットです。これにより、複雑なデータ（例えば、リストや辞書、ネストされたデータ構造など）をそのまま保存できます。
人間が読みやすい: JSONはシンプルなテキスト形式で、インデントや改行があり、人間が読みやすく、デバッグしやすいという特徴があります。
プログラム間のデータ交換に適している: JSONはウェブAPIなどで広く使われており、異なるプログラム間でデータをやり取りするための標準的な形式となっています。多くの言語やツールがJSONをサポートしています。

2. JSONを選ぶ理由

データの構造保持: Hacker Newsのストーリーデータは、タイトル、URL、スコア、コメントなどの多様な情報を含んでいます。これらのデータをそのまま保存し、再利用するには、JSONが適しています。例えば、辞書のリストとして保存する場合、各ストーリーのすべての属性を簡単に保存・取得できます。
ネストされたデータの扱い: ストーリーに関連するデータがネストされた構造（例: コメントやメタデータなど）である場合、JSONはそれを自然に表現できるため、他の形式よりも適しています。

3. 他の形式と比較して

テキストファイル（txt）: txtファイルは非常にシンプルですが、データが単なるテキスト列として保存されるため、構造化されたデータを扱うのには向いていません。複雑なデータをテキストとして保存すると、後からプログラムで利用する際にデータを解析するのが難しくなります。
CSVファイル（CSV）: CSVは表形式のデータ（行と列）に適していますが、ネストされたデータや複雑なデータ構造には不向きです。また、CSVではデータの各フィールドに名前を付けることが難しいため、データの理解や操作が複雑になります。

4. JSONの使用例

APIとの連携: 多くのウェブAPIはJSON形式でデータを返します。そのため、データをそのまま保存・利用するのに最も自然な選択がJSONです。取得したデータを保存し、後で再利用する場合、JSONで保存しておけば、再びAPIを呼び出す必要がなくなり効率的です。
データの再利用: 保存したJSONデータは、後で他のプログラムやスクリプトで簡単に読み込み、解析、表示することができます。例えば、保存したストーリーデータを使って統計情報を計算したり、特定の条件に合致するストーリーだけをフィルタリングする場合にも便利です。

まとめ

今回の記事では、APIの基本をさらに一歩進め、PythonとChatGPTを活用した高度なデータ収集と自動化の手法について解説しました。具体的には、Hacker News APIを使って複数ページにわたるデータを収集する方法や、エラーハンドリングを導入してプログラムの安定性を向上させる方法を学びました。また、定期的にデータを自動的に取得し、JSONファイルに保存する方法を紹介しました。

これらのスキルは、実際のプロジェクトに応用できる非常に重要な技術です。APIを使ったデータ収集は、ウェブスクレイピングと比較して効率的で安全な手法であり、適切にエラーハンドリングを行うことで、より信頼性の高いプログラムを作成できます。

さらに、JSON形式でデータを保存することで、データの再利用や解析が容易になります。これにより、日々の作業効率を大幅に向上させることが可能です。

Pythonってどんな物？
プログラミングってどんな物？という方はこちらの記事を参考にしてみてください！！

: プログラミング完全ガイド：基礎からスクレイピング＆API活用までのまとめ
プログラミングの世界に足を踏み入れたばかりの初心者から、さらなるスキルアップを目指す中級者まで、すべての方に向けた完全ガイドです！この記事では、これまでに執筆したプログラミング関連の記事をまとめ、プロ ...

また、プログラミングに興味はあるけどどうやって勉強していいのかわからないという方はプログラミングを視覚的に理解できる講座を作っていますのでこちらを参考にしてみてください！

Udemyというプラットホームを使用して作成した講座です。
初心者向けに作った講座となっております。以下から講座の確認ができるので見てみてください

Udemyの講座はこちらから

プログラミング学習を進めているけれど、まだ副収入につなげられていない…そんなあなたへ！今こそ、学んだスキルを活かして副業に挑戦する絶好のチャンスです。プログラミングだけでなく、自分のスキルや商品をネットで販売する『ネットショップ』を開設してみませんか？

ネットショップを持つことで、自分の知識やスキルをより多くの人に届け、副収入を得ることが可能です。学んできたプログラミングを活かして、ショップのカスタマイズや運営も自由自在に行えますし、もし商品作成が難しい場合でも、デジタル商品やサービス提供など、いろんな選択肢があります。

このステップで一歩踏み出せば、今学んでいることが副収入に直結し、自分の時間をより有効に使うことができるはずです！一緒にネットショップを開設し、副業の第一歩を踏み出しましょう！

タイトルテキスト

: 【スキルアップ】オンラインショップ開設　おすすめ５選
オンラインショップの開設は、スキルアップと収益の両方を追求する絶好の機会です。特に今の時代、手軽に始められるプラットフォームが増え、初心者でも短期間でショップをオープンできるようになりました。しかし、 ...

ChatGPTとPythonで学ぶ！APIを使った高度なデータ収集と自動化

APIとは何か？

APIをカフェでの注文に例えてみましょう

APIを使った高度なデータ処理

複数ページにわたるデータ収集

出力

エラーハンドリング

データ収集の自動化

使用するライブラリ

1. Hacker Newsのデータ収集

2. エラーハンドリング

3. データの保存

4. 定期的なデータ収集

5. プログラムの停止処理

出力

JSONファイルへ保存する目的

1. JSON形式の特長

2. JSONを選ぶ理由

3. 他の形式と比較して

4. JSONの使用例

まとめ

関連