streamR 使ってみたぽよ

すっかり秋めいた今日この頃、いかがお過ごしですか?

私はというと、弊社の新卒らしからぬ仕事でへーこらへーこらしております。

近頃は残業続きですっかりまいってますが、

ようやく落ち着きつつあり、こうしてブログを書ける余裕になったというわけです。


前置きはこれくらいにして、本日は R 言語で streamR 使ってみたので、

そちらについて少し書き置きます。




背景


そもそも streamR を使うことになったのは、弊社のオウンドメティアがありまして、

「なんか書け」と言われたことに起因します。


「そんなん無理やんけ」と思いつつも、

まあいい機会だから「R 導入計画」でも進めようと、

Rを利用したコンテンツを考え出しました。


そのコンテンツのタイトルというのが

「ポッキーの日に、きのこの山とたけのこの里、はたしてどっちが多く呟かれてるか」でした。

ポッキーの日に設定したのは、11/11なのに「きのこたけのこ」に言及してるってことは、

ネタ要素も高いけど、まあそれなりに愛着があるんだろうな~って考えからです。


オチとしてはポッキーをかじる私の写真を取り、

某ARuFa氏のように目に黒線ぶち込んで「ポッキー大好ぎぃぃぃぃ」とする予定でした。


というわけで、このオチにもってくには、

大量ツイート取得して、「きのこたけのこ」を分類して、カウントして、、、

となると streamR 使わねばなるまい、さあ勉強しようとなった次第です。


ソース


とりあえず、当日使ったソースをこの下にぶち込みます。

====================コードだょ====================
#事前にセットアップだけやりましたよ

#パッケージを読み込みますよ
library(streamR)

#検索ワードですよ
q <- "きのこの山,きのこ派,たけのこの里,たけのこ派"
qqq <- iconv(q,"CP932","UTF-8")

#streaming API で取得したツイートを、JSON状態のままget_tw にぶち込みまくりますよ
get_tw <-filterStream(file="", track=qqq, timeout=100, oauth=cred)

# get_tw の中身をデータフレームに落とし込みますよ
data_tw <- parseTweets(get_tw, simplify = FALSE, verbose = TRUE)

write.table(df1, file = "SocialListening.csv", sep= ",")
================================================

検索ワードについては、UTF-8に変更しないと、うまくやってくれませんでした。


気づいたこと


で、先日の「RでTwitter検索する方法」では触れませんでしたが、

複数単語で検索するときは、どうやら普通にTwitterで検索するときとは異なるってことがわかりました。


AND検索したい→「+」でつなぐ
ex)「プリン おいしい」で検索するときは、「プリン+おいしい」

OR検索したい→「,」(カンマ)でつなぐ
ex)「プリン OR おっぱい」で検索するときは、「プリン,おっぱい」

※それぞれのワードの間にスペースは入れない


「ふ~む」と、ここで気づくわけです。

「今回のこと、ほかの検索オプションに当てはめると、再度検証しないとな~」と、

スッキリしない気分になったわけです。


まとめ


スッキリしね~ってまま、R の設定を済ませ、11月11日のポッキーの日が終わって帰宅したところ、

昨日まで唸ってたPCが静かでした。

「おや」と嫌な予感がしながらもディスプレイを覗くと、


はい、再起動されてました。


と、いうわけで今回、弊社のオウンドメディアを利用して「R 導入計画」を進める計画、

無念にも失敗に終わったわけです。


は~、次のネタ、何にしよ~

ネタ、ゆるぼ。




◆参考文献◆


  1. Package ‘streamR’
  2. [R] [Twitter] streamR パッケージで Twitter Streaming API にアクセスしてみた