全量データとはなんぞや
全量データとは、Twitterが開放しているAPIのひとつである「Firehose」から取得したデータのことを指します。いわゆるTwitterに関するすべてのデータです。このTwitterのFirehoseで取得できるデータを提供しているのは、Twitter社とTwitter社傘下のGnip社の2社だけ。
Gnip(グニップ)とは、2014年にTwitterに買収されたソーシャルメディアAPIアグリケーション企業だそうです。
この2社に認定されたデータ認定企業が、実際にはデータの販売を行っています。日本だとTTデータ、日本IBM、NetBase、Sprinklr、Crimson Hexagonなどですね。
一説によると、TwitterのFirehoseを使うには1億円以上だとか言われています。
ちなみに、TwitterのグローバルTLの取得はFirehose API (statuses/firehose)のアクセス権を得るための契約(1億円よりは高いはず)が必要です。得られたとしても端末がバルスに耐える必要があるけど! https://t.co/TgjWfQleo0— なまえだよ (@namaedayo) 2017年4月15日
どんなデータが含まれてるのだろう
イマツイの記事内容を精査してみた
全量データを使える人というと、NTTデータさん。その中で全量データから見えたものを記事にしてパブリッシュしているのがニュースサイト「イマツイ」です。
イマツイ | 豊洲発!ツイートから「今」が見えるニュースサイト
イマツイは毎月数本の記事を投稿してるので、その内容から全量データに含まれてる項目を推測してみました。
全量データの構造
おそらく構造としては、大きく分けて「ユーザーデータ」と「ツイートデータ」になるのではないかと思います。Twitterアナリティクスや広告管理画面から取得できる項目はもちろん取れるものとして、さらに追加できるのでは?と思われる項目をひとつ。
それは仔細な位置情報です。
まずは「そうかな?と思ったのはこちらの記事から。
夏ボーナスの行方にデータから迫る | イマツイ | 豊洲発!ツイートから「今」が見えるニュースサイト
夏のボーナスの使いみちについての記事ですが、各地域ごとにツイートがきっちり分けられています。
そもそも位置情報はユーザーが自ら追加しなければ取得できない数値のはずではありますが、別情報で類似位置情報を活用しているのかもしれません。
おわりに
以上、いかがでしたか。Firehoseについては2017年に仕様変更が発表されてますので、そちらについても整理してみたいなと思いつつ。
それでは!