• データサイエンティスト
  • 2014年10月入社
  • 法政大学 文学部 哲学科卒

念願叶いデータサイエンティストの道へ。数値を活かせばサイトはもっと飛躍する

学生時代から個人事業としてWebサイトを制作・運営し、サイト分析やプログラミングの道を志すように。2014年大学卒業後、エンジニアとしてWeb制作のベンチャー企業に入社。Vorkers入社後は、希望していたデータサイエンティストとして、ゼロから分析基盤の構築、分析手法の確立を手がけ、社内に統計分析の風土を根付かせた。

使用している主な言語・技術
Python、R、Hive、Presto、Tableau、 TreasureData、Fluentd、embulk、digdag

ゼロから統計分析の基盤を構築。膨大なデータの意味を読み解く日々

今、私はデータサイエンティストとして、統計的なアプローチでVorkersサイトを分析しています。文字列型、数値型などさまざまなパターンでサイト内に眠っている膨大なデータを抽出し、分析できる形に整え、pandasやRを使った統計モデルに入れて結果を導きだします。

今でこそ徐々に分析基盤も整ってきましたが、最初は手探りの状態でした。入社面接で「統計分析の仕事をしたい」と社長の増井に話したところ、半年後にすぐ実現。それから社外で開かれているデータサイエンスのセミナーに通いはじめ、少しずつ人脈を築き、分析手法を習得、一年くらいかけて分析基盤を構築していきました。データの<収集・保存・加工・可視化>といった分析のいろはから学び、データサイエンティストのコミュニティや、分析ツールのユーザー会で事例研究をくりかえし聴講、有効な統計モデルや、アウトプットなどについて知見を深めてゆきました。

当時、社内に分析基盤はありませんでしたが、統計分析を志してきた私にとっては、むしろすばらしい成長機会。ゼロから分析基盤を構築するほうが、自分のためになると思いました。

自力でWebサイトを運営するも飽き足らず、さらに確実な根拠を求めて

データサイエンティストの写真

これほど統計分析に興味を持ったきっかけは、学生時代に運営していたWebサイトでした。話題のキーワードを用いたニュースサイトで、一時は月間150万PVになったこともありました。もちろん当時はプログラムも書けず、どうすれば面白く、かつビジネスとして成り立つサイトになるのかまったくわかりませんでした。そのとき、機能のつくりこみや、数字という確実な根拠をもって収益化の道すじを示すことの重要性を痛感しました。

こうして統計分析やデータベースにひかれ、まずはエンジニアとしてベンチャー企業に就職することにしたのです。

データはデータとして見る。どんな結果もフラットな目線で受け入れる

最初の会社で経験を積んだ後、Vorkersへ入社。もっともひかれたのは、増井の人柄でした。スキルよりも、ひとりひとりの人間性にきちんと目を向けてくれて、やりたいことや、向いていること、熱意をくみ取り、深い理解を示してくれました。事実、経験がなかったのに「統計分析をやりたい」と話したことを真剣に受け止めてくれて、半年後にはほんとうに実現した。叶うと思っていなかったのでほんとうに嬉しかったですし、だからこそがんばろうと日々の原動力になっています。

分析するときに大切にしているのは、「データはデータとして見る」ことです。どうしても、知りたい結果があると、「こういう情報を知りたい」「ここのデータが多いのでは」と先入観に基づいてデータを抽出してしまいがちです。最初の頃の私も、そうでした。しかし、それではほんとうに必要な情報にたどりつくことはできません。まず最初にすべてのデータを見てヒストグラムをつくり、データの特徴をつかむことが重要。分析の途中で先入観を入れてしまうと、都合のよい結果しか出なくなってしまい、悪い結果が目に入らなくなってしまいます。感情面でバイアスのかかった結果ばかり集まってしまうリスクもあるのです。

データ分析は、実は地道な作業の積み重ねです。データの前処理には膨大な時間がかかったのに、実際の分析は1〜2分ということも。ただ、根拠ある数値の裏づけがあると、サイトの改修にも説得力が出ます。納得感のあるデータが抽出できたときは、嬉しいですね。

新機能開発にも分析の目線を活かせるデータサイエンティストに

データサイエンティストの写真

これからは、統計分析をうまく活用してクチコミそのもののグラフ化を目指せたらと考えています。自然言語処理を使えば、単語ひとつひとつを解析・数値化して、グラフとして表示させることもできます。そうすれば、文字情報を読むことが苦手なユーザーにも、ひと目で企業の特徴を伝えることができ、より多くの人にVorkersサイトを見てもらえるようになるのではと思っています。

データサイエンティストの世界では、ただデータを集めて分析するだけではダメで、根本的なビジネスの目的や本質をとらえられる人が活躍しています。私自身も、ビジネス目線を忘れず、新機能開発について提言できるデータサイエンティストとして成長していきたいですね。

分析者の仕事とは本来、新しい機能を企画・提案する際に、数値的な根拠を示すことだと思います。分析者が上流工程で、なぜその機能開発が必要か、そもそもの意義まで言えれば、KPIの設定も、結果検証ももっと説得力のあるものになるはずです。「なんとなく」とか、ユーザーのために「なる気がする」ではなく、データを検証したうえで、開発していけるといいなと思っています。