関連サイト
本書の関連ページが用意されています。
内容紹介
■□■プログラムが読めればデータ収集・効率化が自由自在!!■□■
「プログラムの読み方をすべて載せる(ふりがなをふる)」という手法で究極のやさしさを目指した、まったく新しいプログラミングの解説書「ふりがなプログラミング」シリーズから、Pythonを使ったスクレイピングの入門書が登場しました。
スクレイピングを用いれば、Web上のサイトを定期的にチェックしたり、一覧になったURLのリンク先を順番に参照したりといった作業を、プログラムで自動化できるようになります。応用できる範囲は趣味から仕事まで実に幅広く、Pythonで行えることが一気に広がります。
本書では、サンプルのWebページや実際のWebページを題材にして、Webサイトの構造を把握することからしっかり解説。データの収集、データの整理・加工といった、一連の流れを学ぶことができます。
■本書はこんな人におすすめ
・Pythonを使ったスクレイピングの基本を身につけたい人
・過去に入門書で挫折してしまった人
・プログラマーやエンジニアを目指す人
・仕事でPythonを活用してみたい人
書誌情報
- 著者: リブロワークス(著), 株式会社ビープラウド(監修)
- 発行日: 2021-12-01 (紙書籍版発行日: 2021-12-01)
- 最終更新日: 2021-12-01
- バージョン: 1.0.0
- ページ数: 192ページ(PDF版換算)
- 対応フォーマット: PDF, EPUB
- 出版社: インプレス
対象読者
Pythonを使ったスクレイピングの基本を身につけたい人、過去に入門書で挫折してしまった人、プログラマーやエンジニアを目指す人、仕事でPythonを活用してみたい人
著者について
リブロワークス
書籍の企画、編集、デザインを手がけるプロダクション。手がける書籍はスマートフォン、Webサービス、プログラミング、WebデザインなどIT系を中心に幅広い。著書に『やさしくわかるPythonの教室』(技術評論社)、『解きながら学ぶ Pythonつみあげトレーニングブック』(マイナビ出版)、『スラスラ読める Pythonふりがなプログラミング 増補改訂版』(インプレス)など。
株式会社ビープラウド
ビープラウドは2008年にPythonを主言語として採用、優秀なPythonエンジニアがより力を発揮できる環境作りに努めている。Pythonに特化したオンライン学習サービス「PyQ(パイキュー)」、システム開発者向けクラウドドキュメントサービス「TRACERY(トレーサリー)」、研修事業などを通して技術・ノウハウを発信。また、IT勉強会支援プラットフォーム「connpass(コンパス)」の開発・運営や勉強会「BPStudy」の主催など、コミュニティ活動にも積極的に取り組んでいる。
目次
はじめに
プログラムの読み方
Chapter 1 スクレイピング最初の一歩
- 01 スクレイピングって何?
- 02 本書の読み進め方
- 03 Pythonのインストール
- 04 Visual Studio Codeのインストール
- 05 スクレイピングに必要なライブラリのインストール
- 06 VS Codeでプログラムを作成してみよう
Chapter 2 スクレイピングをやってみよう
- 01 HTMLを理解することがスクレイピングの第一歩
- 02 Webページから要素を取り出す
- 03 HTML属性を指定して要素を取り出す
- 04 Webページから要素を複数取り出す
- 05 パターンに一致した要素を取り出す
- 06 取り出した要素をさらに絞り込む
- 07 実際のWebページでスクレイピングする
- 08 要素を取り出せない場合は(1)
- 09 CSSセレクタってどんなもの?
- 10 CSSセレクタを使って要素を取り出す
Chapter 3 スクレイピングの応用テクニック
- 01 Webページ内のリンクを取り出す
- 02 画像を取り出す
- 03 前後の要素を取り出す
- 04 ページ遷移しながらスクレイピングする
- 05 要素を取り出せない場合は(2)
- 06 エラーに強いプログラムを作成する
Chapter 4 集めたデータを整理・加工しよう
- 01 集めたデータを使うには
- 02 全角・半角の表記ゆれをなくす
- 03 大文字・小文字の表記ゆれをなくす
- 04 文字列を置換する
- 05 表形式のデータを扱う
- 06 表形式のデータから列や行を取り出す
- 07 条件に一致したデータを取り出す
- 08 欠損値があるデータを加工する
- 09 表形式のデータを集計する
- 10 グラフでデータを可視化する
Chapter 5 Web APIでデータを集めよう
- 01 Web APIを使ってみよう
- 02 その他のスクレイピングライブラリ