1. HOME
  2. ブログ
  3. スプレッドシート関数:importxmlで無料でスクレイピング!HPのデータを自動で取得できます

スプレッドシート関数:importxmlで無料でスクレイピング!HPのデータを自動で取得できます

<この記事を書いた人>

googleスプレッドシートとは

googleが提供するエクセルのような表計算サービスです。無料googleアカウントで使う事もできますし、

先日バージョンアップされたgoogleworkspaceで使う事も可能です。

ちなみに、googleworkspaceをこれから契約されるのでしたら、初年度20%引きになるプロモーションコードを提供しております!


無料のgoogle workspaceプロモーションコードの申込はこちら

 

メールアドレス (例)nihon@example.co.jp

 

スクレイピングとは

スクレイピングとはデータを収集した上で利用しやすく加工することを言います。最近では、ウェブ上で、競合他社のHPから自動で情報を収集したり、株価を取得したりといった使い方が可能です。弊社の場合、本業が不動産会社なのですが、最新の物件の賃料銃砲などを取得することができて、便利なんです。

ただ、通常は有料サービスだったり、自分でプログラムを組む必要がありました。

しかし、googleさんさすがです!スプレッドシートの関数で、それが実現できるんです!

 

スプレッドシートの関数:importxmlの使い方

1.クロームで、xpathをコピーする

実際の使い方ですが、まずはHPのどの情報を取得するのかを決める、xpathいう名前のデータを取ってくる必要があります。xpathというと聞きなれないので難しく感じるかもしれませんが、実際には簡単です。

googlechromeで情報が欲しいページにアクセスしたら、f12キーを押しましょう。

その後、右上の枠にマウスを持っていくと、右側のHPが青く色が付きます。この色がついた状態が、HPを裏側で定義しているhtmlというプログラム分の該当箇所になります。

この事例では、所在地の情報が欲しいので、右側でマウスを当てて、場所を探します。

なお、html文書ですが、長いので、クロームがまとめてくれています。必要な情報が青く塗られた場所を見つけたら、▲を押して、html文を開いて、中身を見ていきましょう!

最終的に、欲しい情報を見つけました。この状態で、マウスを右クリック。copyを選び、その中からxpathを選択します。

 

2.スプレッドシートに関数を入力

①以下のような関数を入力します。

「=importxml(参照したいURLが入ったセル,” ここに貼り付けます ”)」

どこでもいいので、関数をセルに入力しましょう!

 

②ダブルクオーテーションをシングルクオーテーションに変更する

貼り付けたままの状態だと、ダブルクオーテーションが関数の区切りに判断されてしまい、エラーになってしまいます。

この”ダブルクオーテーションを’シングルクオーテーションに変更しましょう!

シングルクオーテーションに変更すると、無事情報が取得されました!

 

実際のスプレッドシートはこちらです。

➡importxmlの事例

 

まとめ

みなさんの業務で、特定のHPの情報を取得して、エクセルに入れるという仕事があれば、このimportxmlで簡単に情報をとってこれますよ!

また、この事例だと、c1に入っているURLを消して、再度入れなおせば、最新の情報を取得してくれます!

これで、生産性アップにつなげてみてください!

 

【ICTオフィス相談室の最新情報を無料メルマガでゲットする】

以下の情報をいち早く受け取れます!
・最新のICTツール等のニュース!
・中小企業向けのICT活用によるテレワーク等生産性の上がるワークスタイルノウハウ
・コスト削減、生産性向上のノウハウ、情報
購読者3500人、発行暦15年を超える人気メルマガ「IMnews!」
メールアドレス (例)nihon@example.co.jp

関連記事

中小企業ICT活用の最新記事




ICTオフィス相談室 最新記事

クラウドPBX7社一括比較はこちら



ICTオフィス相談室 広告掲載について
記事広告やバナー広告、メールマガジンでのご紹介が可能です。