ChatGTP プログラミング学習

ChatGPTとPythonで学ぶ!APIを使った高度なデータ収集と自動化

記事内に商品プロモーションを含む場合があります

APIの活用は、プログラミングにおいて重要なスキルの一つです。前回の記事「【プログラミング】ChatGPTと進めるAPI学習の基本」では、APIの基礎について学びました。今回は、さらに一歩進んで、ChatGPTとPythonを使ってAPIから複数ページにわたるデータ収集やエラーハンドリング、そして自動化までを行う方法を解説します。このステップでは、より高度なデータ処理技術を身につけ、実際のプロジェクトに活用できるスキルを養っていきましょう。

Pythonの始め方についてはこちらの記事を参考にしてみてください!!

ブログ内のコードはコピーして使用できます

APIとは何か?

APIは「Application Programming Interface」の略です。簡単に言うと、APIはコンピュータプログラム同士が話すためのルールです。

APIをカフェでの注文に例えてみましょう

  • あなた(ユーザー): レストランのお客さん
  • キッチン(サービス): 食べ物を作る場所
  • ウェイター(API): あなたとキッチンをつなぐ人

レストランで食事を注文する時、あなたはウェイターに「パスタをください」と伝えます。ウェイターはそのメッセージをキッチンに伝え、キッチンでパスタが作られます。パスタができたら、ウェイターはそれをあなたに届けます。

APIはこの「ウェイター」のような役割を果たします

  • あなた(プログラム)はAPIを通じて他のプログラム(サービス)に何かをお願いしたり、情報を取り出したりします。
  • APIはそのお願いを受け取って、必要な情報を持ってきたり、指示を実行したりします。

APIを使った高度なデータ処理

目標

Hacker News APIを使用して、より複雑なデータ収集や処理を行います。具体的には、複数ページにわたるデータの収集、エラーハンドリング、データの自動化について学びます。

今回使用するAPI

サイト:Free Weather API

APIはこちらから→GitHub‐Free Weather API

複数ページにわたるデータ収集

Hacker News APIは、基本的には単一ページで完結するデータを返しますが、特定のリクエストで複数のIDを取得し、それを基に詳細なデータを取得することが可能です。

Hacker Newsのトップストーリーを収集

まずは、トップストーリーのIDを取得し、それぞれのストーリーの詳細データを収集する方法を紹介します。

ポイント

  1. APIリクエストで複数のIDを取得:
    • Hacker NewsのトップストーリーのID一覧を取得するAPIエンドポイントからデータを取得します。この段階では、ストーリーのIDのみが取得されます。
  2. IDを基に詳細データを収集:
    • 取得したストーリーIDを使って、各ストーリーの詳細データを再度APIリクエストで取得します。このように、1つのリクエストで複数のIDを取得し、それぞれのIDを基に詳細なデータを別々に取得するプロセスが複数ページにわたるデータ収集のポイントです。
  3. データの集約:
    • 取得した各ストーリーの詳細データをリストに保存し、一括で処理や表示を行います。このステップでは、複数のリクエストから得られたデータをまとめて管理する方法を学びます。
  4. エラーチェック:
    • APIリクエストが失敗した場合(例: サーバーの応答が

出力

エラーハンドリング

APIリクエストを行う際、ネットワークの問題やAPIの制限でエラーが発生することがあります。そのようなエラーに対処するための基本的なエラーハンドリングを導入します。

ポイント

  1. APIリクエストとエラーハンドリング:
    • fetch_story_data 関数でAPIリクエストを実行し、エラーが発生した場合に適切に処理します。これにより、ネットワークエラーやタイムアウトエラーなどが発生しても、プログラムが停止しないようにします。
  2. データの一括取得:
    • リスト内包表記を使って、複数のストーリーIDから一括でデータを取得します。エラーが発生した場合、そのデータはスキップされます。
  3. データの確認:
    • 取得したデータの数を出力して、どれだけのデータが正しく取得できたかを確認します。

データ収集の自動化

このスクリプトを定期的に実行し、新しいストーリーを自動的に収集・保存するためのスクリプトを作成します。ここでは、time.sleep()を使って一定時間ごとにデータを収集します。

使用するライブラリ

1. import requests

  • 役割: requestsは、PythonでHTTPリクエストを送信するためのライブラリです。ウェブサイトやAPIからデータを取得するために使用します。
  • 用途: このコードでは、Hacker News APIにリクエストを送信して、ストーリーのデータを取得するために使われています。requests.get()メソッドを使用して、指定したURLからデータを取得します。

2. import time

  • 役割: timeは、Pythonで時間に関連する操作を行うための標準ライブラリです。プログラムの実行を一定時間停止したり、現在の時間を取得したりすることができます。
  • 用途: このコードでは、time.sleep(3600)を使用して、プログラムの実行を1時間(3600秒)停止させています。これにより、定期的にデータを収集する機能を実現しています。

3. import json

  • 役割: jsonは、PythonでJSON(JavaScript Object Notation)データを操作するための標準ライブラリです。JSONは、ウェブAPIやデータ交換でよく使われる軽量のデータフォーマットです。
  • 用途: このコードでは、APIから取得したデータをJSON形式で保存したり、ファイルから読み込んだりするために使われています。json.dump()でPythonのデータをJSONファイルに保存し、json.load()でファイルからデータを読み込むことができます。

自動的にデータを取得してJOSNファイルへ保存

ポイント

1. Hacker Newsのデータ収集

  • Hacker News APIを使用して、トップストーリーのIDリストを取得し、それぞれのストーリーの詳細情報(タイトル、URLなど)を収集しています。
  • fetch_story_data関数で、各ストーリーIDに対して個別のリクエストを送り、詳細なデータを取得します。

2. エラーハンドリング

  • fetch_story_data関数内で、APIリクエスト中に発生する可能性のあるさまざまなエラー(HTTPエラー、接続エラー、タイムアウトエラーなど)をキャッチし、適切なエラーメッセージを表示します。これにより、プログラムが予期せぬエラーでクラッシュするのを防ぎます。

3. データの保存

  • 取得したストーリーデータを、hn_top_stories.jsonというJSONファイルに保存します。json.dump関数を使用して、データを整形して(インデント付き)保存し、文字エンコーディングとしてUTF-8を使用しています。

4. 定期的なデータ収集

  • while Trueループで、1時間ごとにデータを自動的に収集・保存します。time.sleep(3600)により、データ収集の間隔を1時間に設定しています。

5. プログラムの停止処理

  • try-except構文を使用して、プログラムが実行中にCtrl + CKeyboardInterrupt)を押すと、プログラムが安全に停止するようにしています。これにより、無限ループを簡単に終了させることができます。

出力

JSONファイルへ保存する目的

JSONファイルは、データを効率的に管理・保存するためのフォーマットとして広く利用されています。特にプログラミングやデータ解析の分野では、シンプルで読みやすい形式が重宝され、構造化されたデータの保存や交換に最適です。このリード文では、JSONファイルの利便性と、その保存方法を解説します。特に、プログラマーやデータサイエンティストが日々の作業に役立つ情報を提供し、データ管理のスキルを向上させることを目的としています。JSONファイルを使いこなすことで、効率的なデータ処理と整理が可能になり、作業の生産性が大きく向上するでしょう。

1. JSON形式の特長

  • 構造化データの保存: JSON(JavaScript Object Notation)は、データをキーと値のペアで保存する構造化されたデータフォーマットです。これにより、複雑なデータ(例えば、リストや辞書、ネストされたデータ構造など)をそのまま保存できます。
  • 人間が読みやすい: JSONはシンプルなテキスト形式で、インデントや改行があり、人間が読みやすく、デバッグしやすいという特徴があります。
  • プログラム間のデータ交換に適している: JSONはウェブAPIなどで広く使われており、異なるプログラム間でデータをやり取りするための標準的な形式となっています。多くの言語やツールがJSONをサポートしています。

2. JSONを選ぶ理由

  • データの構造保持: Hacker Newsのストーリーデータは、タイトル、URL、スコア、コメントなどの多様な情報を含んでいます。これらのデータをそのまま保存し、再利用するには、JSONが適しています。例えば、辞書のリストとして保存する場合、各ストーリーのすべての属性を簡単に保存・取得できます。
  • ネストされたデータの扱い: ストーリーに関連するデータがネストされた構造(例: コメントやメタデータなど)である場合、JSONはそれを自然に表現できるため、他の形式よりも適しています。

3. 他の形式と比較して

  • テキストファイル(txt: txtファイルは非常にシンプルですが、データが単なるテキスト列として保存されるため、構造化されたデータを扱うのには向いていません。複雑なデータをテキストとして保存すると、後からプログラムで利用する際にデータを解析するのが難しくなります。
  • CSVファイル(CSV: CSVは表形式のデータ(行と列)に適していますが、ネストされたデータや複雑なデータ構造には不向きです。また、CSVではデータの各フィールドに名前を付けることが難しいため、データの理解や操作が複雑になります。

4. JSONの使用例

  • APIとの連携: 多くのウェブAPIはJSON形式でデータを返します。そのため、データをそのまま保存・利用するのに最も自然な選択がJSONです。取得したデータを保存し、後で再利用する場合、JSONで保存しておけば、再びAPIを呼び出す必要がなくなり効率的です。
  • データの再利用: 保存したJSONデータは、後で他のプログラムやスクリプトで簡単に読み込み、解析、表示することができます。例えば、保存したストーリーデータを使って統計情報を計算したり、特定の条件に合致するストーリーだけをフィルタリングする場合にも便利です。

まとめ

今回の記事では、APIの基本をさらに一歩進め、PythonとChatGPTを活用した高度なデータ収集と自動化の手法について解説しました。具体的には、Hacker News APIを使って複数ページにわたるデータを収集する方法や、エラーハンドリングを導入してプログラムの安定性を向上させる方法を学びました。また、定期的にデータを自動的に取得し、JSONファイルに保存する方法を紹介しました。

これらのスキルは、実際のプロジェクトに応用できる非常に重要な技術です。APIを使ったデータ収集は、ウェブスクレイピングと比較して効率的で安全な手法であり、適切にエラーハンドリングを行うことで、より信頼性の高いプログラムを作成できます。

さらに、JSON形式でデータを保存することで、データの再利用や解析が容易になります。これにより、日々の作業効率を大幅に向上させることが可能です。

もしわからないことがあれば、このブログやXに質問等を投げていただければと思います。また、コミュニティもやっっているのでそちらから質問を投げていただいても大丈夫ですよ!!

Xのアカウントはこちら

ダダのアカウント

Discordコミュニティ

ハピッツカフェ

プログラミングを視覚的に理解したい方やプログラミングで絵を書いてみたい方はUdemyで講座も作っているのでこちらも参考にしてみてください

Udemy講座

Processing Python講座

ChatGPTでPythonの学習を始めてみたい方は以下の記事を参考にしてみてください

ChatGPTはプログラミングの学習はできても、人のつながりまでは作ってくれません。
プログラミングの学習だけではなく、人との繋がりを作ってくれるスクールもオススメです。
気になる方は無料相談からでも体験してみてください!!

テックアカデミー無料メンター相談

-ChatGTP, プログラミング学習
-, , , , , , ,