1. HOME
  2. ブログ
  3. スプレッドシート関数:importxmlで無料でスクレイピング!HPのデータを自動で取得できます

スプレッドシート関数:importxmlで無料でスクレイピング!HPのデータを自動で取得できます

googleスプレッドシートとは

googleが提供するエクセルのような表計算サービスです。無料googleアカウントで使う事もできますし、

有料のgoogleworkspaceで使う事も可能です。

google workspaceの詳細は以下の記事を御覧ください↓


スクレイピングとは

スクレイピングとはデータを収集した上で利用しやすく加工することを言います。最近では、ウェブ上で、競合他社のHPから自動で情報を収集したり、株価を取得したりといった使い方が可能です。弊社の場合、本業が不動産会社なのですが、最新の物件の賃料銃砲などを取得することができて、便利なんです。

ただ、通常は有料サービスだったり、自分でプログラムを組む必要がありました。

しかし、googleさんさすがです!スプレッドシートの関数で、それが実現できるんです!

 

スプレッドシートの関数:importxmlの使い方

1.クロームで、xpathをコピーする

実際の使い方ですが、まずはHPのどの情報を取得するのかを決める、xpathいう名前のデータを取ってくる必要があります。xpathというと聞きなれないので難しく感じるかもしれませんが、実際には簡単です。

googlechromeで情報が欲しいページにアクセスしたら、f12キーを押しましょう。

その後、右上の枠にマウスを持っていくと、右側のHPが青く色が付きます。この色がついた状態が、HPを裏側で定義しているhtmlというプログラム分の該当箇所になります。

この事例では、所在地の情報が欲しいので、右側でマウスを当てて、場所を探します。

なお、html文書ですが、長いので、クロームがまとめてくれています。必要な情報が青く塗られた場所を見つけたら、▲を押して、html文を開いて、中身を見ていきましょう!

最終的に、欲しい情報を見つけました。この状態で、マウスを右クリック。copyを選び、その中からxpathを選択します。

 

2.スプレッドシートに関数を入力

①以下のような関数を入力します。

「=importxml(参照したいURLが入ったセル,” ここに貼り付けます ”)」

どこでもいいので、関数をセルに入力しましょう!

 

②ダブルクオーテーションをシングルクオーテーションに変更する

貼り付けたままの状態だと、ダブルクオーテーションが関数の区切りに判断されてしまい、エラーになってしまいます。

この”ダブルクオーテーションを’シングルクオーテーションに変更しましょう!

シングルクオーテーションに変更すると、無事情報が取得されました!

 

実際のスプレッドシートはこちらです。

➡importxmlの事例

 

まとめ

みなさんの業務で、特定のHPの情報を取得して、エクセルに入れるという仕事があれば、このimportxmlで簡単に情報をとってこれますよ!

また、この事例だと、c1に入っているURLを消して、再度入れなおせば、最新の情報を取得してくれます!

これで、生産性アップにつなげてみてください!

 

google workspaceの導入もしくは商流変更をお考えの方は、弊社で導入サポート最適なプランの選定をアドバイスも無料で行っております。また、公式HPからだと14日間の無料利用期間は、弊社経由ですと30日間になります。さらに、他クラウドサービスとセット導入で特別に割引価格でご提供が可能です。

お問い合わせはこちら⇒ 株式会社アーデント 03-5468-6097

※「google work spaceの記事を見た」とお伝え下さい。

google workspaceお問い合わせフォーム

必要な項目のすべてをご入力いただき、「アーデントに問い合わせる」ボタンをクリックしてください。必須のついている項目は必須入力項目です。



会社名
必須
必須
メールアドレス必須
電話番号必須
コメント

 

関連記事

関連記事

ICTオフィス相談室 最新記事