講習会スクレイピング入門

2015.12.17　理工学図書館TA　情報科学研究科 M2　加藤

はじめに

スクレイピングとは普段使っているブラウザ(Internet Explorer, Google Chrome, Safariなど)ではなくプログラムからインターネットにアクセスする技術です。注意事項
として人間が操作するのとは異なりプログラムからは高速アクセスが可能です。使い方を誤ると事件になる場合(Librahack事件)もありますのでウェブサイトの利用規約を先に確認するなど十分注意してください。プログラムからアクセスしていいかを確認するためにRubyではRobotexというライブラリを併用することをおすすめします。

また、電子ジャーナル・電子ブックのウェブサイトに対してスクレイピングを行うと、機械的なダウンロードと判断されて大阪大学全体の利用が停止される恐れがありますので絶対に行わないでください。

**追記: 図書館のページから見ている方へ**
準備で使っている`sample.html`はこのリンクから入手できます．
また以下では順を追ってプログラムを作り上げていきますが，完成後のプログラムも同じディレクトリに入っていますので，
分からなくなった方は参考にしてみて下さい．

環境の動作確認

こちらで用意した環境を使用するか、自前でライブラリのインストールを行って下さい。以下はUbuntu(Linux)とFirefoxを用いて説明をしますので，自分で環境を用意する方は適宜読み替えて下さい．

1. こちらで用意した環境を使う場合

Virtualbox(https://www.virtualbox.org)をインストールしたあと, Ubuntu.ovaをダウンロードし起動。
*「Ubuntu.ova」のリンクをクリックすればダウンロードできます。ファイルサイズが2.2GBと大きいのでインターネット接続環境の良いところでダウンロードしてください。
　*「Ubuntu.ova」をダウンロードした際に、別の拡張子（.tar）に変わってしまった場合は、ファイルの名前の変更で、拡張子部分を「.ova」に修正してください。

ID: guest
PASSWORD: koshukai1217

インターネットの接続

ブラウザ(Firefox)を開いてYahoo!に繋がることを確認

ターミナル

cd Desktopでデスクトップに移動
lsでファイル一覧を出す

Ruby

コマンド編

テキストエディタで
```
puts "hello, world"
puts 2**10
```
をtest.rbという名前でデスクトップに保存
ターミナルでruby test.rbで実行

2. 自前でライブラリを用意する場合

Rubyにてpry,robotex,nokogiriをインストールしてあればOKです。

pry編

ターミナルを開いてpryと打ってみる
[1] pry(main)>が出てきたらputs "hello, world"と打ってみる
exitでターミナルに戻る

注) PryはRubyを1行ずつ動かすための環境

予備知識

普段目にするウェブページはhtmlで表現されている。そのhtmlの中身がどうなっているかをsample.htmlを使って簡単に紹介する。

HTMLの構造

sapmle.htmlをダブルクリックしてFirefoxで表示
次にテキストエディタでsample.htmlを開く

<!DOCTYPE html>
<html lang="ja">
 
<head>
  <meta charset="UTF-8"/>
  <title>HTMLのサンプル</title>
</head>
 
<body>
  <h1>Hello, everyone!</h1>
  <div class="favorite">
    <h3>What I like is ...</h3>
    <ul>
        <li id="food">apple</li>
        <li id="sport">baseball</li>
        <li id="instrument">cello</li>
    </ul>
  </div>
</body>
 
</html>

htmlの中身は<tag> ? </tag>の入れ子(繰り返し)構造で表現されている
- tagはタグと呼び、特定のタグを用いると表示をウェブページの表示を制御できる。
- 例えば<title>を使うとウェブページのタイトルを決定できる。<ul>, <li>では箇条書きを表現できる。
  - タグ自体は表示に現れない
- 表示には関係ないタグも存在し、例えば<div>で囲まれた部分は「あるひとかたまり」としての意味を持つが、ウェブページの見た目には影響しない。
- タグの後ろには付加情報class, idを付けることができるが、これはhtml作成者が分かりやすくするためでありdivと同様見た目には影響しない。

XPath

XMLに準拠した文書(=HTML)の特定の部分を指定する言語(Wikipedia)

XPathでhtmlのほしい情報にたどり着くことができる。
- 例えばウェブページのタイトルが欲しい場合のXPathは/html/head/titleとなる。
- <li>のように同じタグが並んでいる場合はどうすればよいだろうか。
  - ヒント: 一つ目の<li>(apple)はli[1]と表現できる。

Ruby(超入門)

puts "This is a pen." => "This is a pen."というメッセージを出す。
配列は、複数のものをまとめた表現。array = ["oolong tea", "cola", "beer"]のとき、puts array[0] => "oolong tea"。候補が複数ある時htmlと違って"0"スタート。配列の追加はarray << "water"というふうに行う。
candidatesが複数のものの候補(もちろん配列を含む)であるとき、その全てについて処理を行いたい場合は次のように記述する。

candidates.each do |candidate|
  # 何か処理 
  # 例えばputs candidateとすればcandidatesそれぞれの要素を出力する 
end

スクレイピングに挑戦

練習

ターミナルでpryに入り

# nokogiriという便利なライブラリを使う 
require 'nokogiri'

sample.htmlの読み込み

# practice.rbと同じディレクトリにあるsample.htmlを開く 
file = File.open('sample.html')
# それをdocという名前のnokogiri形式に変換 
doc = Nokogiri::HTML(file)

いざスクレイピング！

# xpathでtitleを探してtitleという名前をつける 
title = doc.xpath('/html/head/title')
# putsは画面に出力する関数。titleとtitle.textの違いは？ 
puts title
puts title.text

<li>のように複数ある場合はどうなるか

favorites = doc.xpath('??????')
puts favorites
puts favorites.text

xpathで要素を選んでみよう

favorites = doc.xpath('?????')
puts favorites
puts favorites.text

xpathではなくrubyのほうで要素を絞り込む

favorites = doc.xpath('')
puts ??????
puts ??????

まとめ

pryでexitと打ちターミナルに戻り、ruby practice.rbで同じ結果が出ることを確認

xpathの探し方

xpathが分かればほしい情報が取れそうなことが分かった。
- 実際のページではどう探せばよいか？
FirefoxでYahoo!のhtmlを見てみる

だるそうなのでインスペクタを使ってみる

ほしい情報がある場所をクリックするとソースの位置を特定してくれる

xpathが辿れそうだけどそれでもめんどくさい...

xpath(発展版)

xpathは属性を指定することができる
- 例えばclass="favorite"である<li>はxpathでli[@class="favorite"]となる
また「どこかにあるdiv」を表したい場合は//divと書く。
これらを組み合わせて、「どこかにあるclass属性favoriteを持つdiv」は//div[@class="favorite"]
となる

Yahooニュース一覧のスクレイピング

pryに入り、ライブラリを使う

require 'nokogiri'
# ローカルではなくウェブページを開くのに必要 
require 'open-uri'
# 実際のウェブページをスクレイピングしていいか確認できるライブラリ 
require 'robotex'

前準備

robotex = Robotex.new
url = 'http://www.yahoo.co.jp/'

スクレイピングしていいか確認

if robotex.allowed?(url)
=begin
スクレイピングしていい場合はここが実行
else
だめならここが実行
end
=end

Yahooの読み込み

UserAgent = 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)'
html = open(url, 'User-Agent' => UserAgent).read

xpathを楽して書くにはどうすればよいか？

doc = Nokogiri::HTML(html)
doc.xpath('?????').each do |node|

程度の範囲を絞ったあと、続きのxpathは"."ではじめる。例)./A/B/C
```
node.xpath('.??????').each do |a|
puts a.text
```
終わりの処理。今は無視して良い。
```
end
end
else
puts 'Now allowed :-('
end
```
まとめ
pryでexitと打ちターミナルに戻り、ruby yahoo.rbで同じ結果が出ることを確認

実践！ブログの記事タイトル一覧取得

あなたはあのアメブロMVB、市川海老蔵ブログの記事タイトル一覧を欲しているとします。以下のソースを穴埋めして一覧を表示してみてください。
- 以下をtitle.rbでデスクトップに保存してターミナルでruby title.rb

require 'nokogiri'
# ローカルではなくウェブページを開くのに必要 
require 'open-uri'
# 実際のウェブページをスクレイピングしていいか確認できるライブラリ 
require 'robotex'
 
robotex = Robotex.new
url = '?????'
 
if robotex.allowed?(url)
  # おまじない 
  UserAgent = 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)'
  html = open(url, 'User-Agent' => UserAgent).read
 
  doc = Nokogiri::HTML(html)
  doc.xpath('?????').each do |node|
    node.xpath('.?????').each do |a|
      puts a.text
    end
  end
else
  puts 'Now allowed :-('
end

Flickrから画像を取得してみる

Flickrは最も有名な写真共有サイト
- https://www.flickr.com/
例えばcatで検索して出てきた画像を取得することを考える
- 全部取得すると時間かかるのでとりあえず5枚
pryへ入りまずはライブラリを使う

require 'nokogiri'
require 'open-uri'
require 'robotex'

次に画像を保存する関数を定義。使い方はsave_image(画像のurl)

def save_image(url)
  filename = File.basename(url)
  open(filename.to_s, 'wb') do |file|
    open(url) do |data|
      file.write(data.read)
    end
  end
end

好きなurlでどうぞ

url = "?????"
# picsは画像のurlを入れるための配列(最初は空) 
pics = []
robotex = Robotex.new

スクレイピングが可能かチェックしてdocとして使用

if robotex.allowed?("https://www.flickr.com") then
  doc = Nokogiri::HTML(open(url))

(画像のurlまでの)xpath見つけられるでしょうか？今回はいつもと違う場所にほしい情報があるので少し難しい。

doc.xpath("?????").each do |link|

まずはlinkがどうなっているか見てみる

puts link
end
end

タグに挟まれた情報がほしい時は...。属性の情報がほしい時は？.attr("属性名")を使う。

if robotex.allowed?("https://www.flickr.com") then
  doc = Nokogiri::HTML(open(url))
  doc.xpath("?????").each do |link|
    puts ?????
  end
end

とりあえず画像のurlを含んだ情報は取れたようだ

<div style="transform: translate(758px, 1015px); -webkit-transform: translate(758px, 1015px); -ms-transform: translate(758px, 1015px); width: 302px; height: 187px; background-image: url(//c4.staticflickr.com/8/7012/6672150457_420d61007d_n.jpg)">

↓
transform: translate(758px, 1015px); -webkit-transform: translate(758px, 1015px); -ms-transform: translate(758px, 1015px); width: 302px; height: 187px; background-image: url(//c4.staticflickr.com/8/7012/6672150457_420d61007d_n.jpg)

ただのテキストからURLが欲しいがどうするか？

正規表現入門

特殊な意味を持つ記号を用いてテキストからほしい情報を取り出すための技術。
- 参考: http://www.megasoft.co.jp/mifes/seiki/meta.html
例) 正規表現が/私は.です/のとき

私は人です OK
私は男です OK
僕は人です NG
私は長男です NG
あろうことか私は熊ですと答えてしまった。 ?

いずれも私は◯ですを取り出すことができる。
rubyで正規表現を扱うとき、例えば以下のようになる

a = "あろうことか私は熊ですと答えてしまった。"
puts a.match(/私は.です/).to_s #=> 私は熊です

再びFlickrから画像を取得してみる

ここで上記のテキストを再度見てみると、あたまの//とおしりのjpgに着目して、その正規表現は/????/と考えられるので

if robotex.allowed?("https://www.flickr.com") then
  doc = Nokogiri::HTML(open(url))
  doc.xpath("?????").each do |link|
    puts link.attr('style').match(//).to_s
  end
end

何かたりない。urlの頭に必要なあれをくっつける。rubyでは文字列をくっつけるときは"abc" + "def" #=> "abcdef"とすればよいので

if robotex.allowed?("https://www.flickr.com") then
  doc = Nokogiri::HTML(open(url))
  doc.xpath("?????").each do |link|
    puts "" + link.attr('style').match(//).to_s
  end
end

これを配列picsに保存しておく

if robotex.allowed?("https://www.flickr.com") then
  doc = Nokogiri::HTML(open(url))
  doc.xpath("?????").each do |link|
    pics << "" + link.attr('style').match(//).to_s
  end
end

picsに保存したurlから画像を取得する。数が多いのでとりあえず5枚。

pics[0, 5].each do |pic_url|
  save_image(pic_url)
end

まとめ

デスクトップに画像が5枚保存されたことを確認。
これらをまとめてflickr.rbとし、urlの検索語をたとえばdogにかえてみる。そしてruby flickr.rbを実行。

講習会 スクレイピング入門