Dezember 2014 – ahoi data

Twitter-mining mit R – Teil 5 – Followermap

2014-12-22 by Niels

Mit nur wenigen Zeilen R-Code ist es möglich, die globale Verteilung der Follower eines Accounts zu Visualisieren. Dies geht besonders einfach, wenn man eine Funktion zur Hilfe nimmt, die auf folgender Homepage veröffentlicht wurde http://simplystatistics.org/2011/12/21/an-r-function-to-map-your-twitter-followers/.

Zwei Dinge sollten bedacht werden:

Viele Twitter-User tragen aus Datenschutzgründen keinen, oder einen falschen Standort ein
Visualisierungen wie diese Followermap bilden häufig nur die variiernde Bevölkerungsdichte bzw. die variierende Dichte des Internetzugangs über die Weltregionen ab

Randell Munroe von XKCD bringt das Problem mit einem Comic treffend auf den Punkt:
XKCD.com

#-----------------------------------------------------
# --- Mit Twitter verbinden ---
#-----------------------------------------------------
library(twitteR)
# Authentifizierungsschlüssel eingeben
api_key <- "**************************"
api_secret <- "***************************"
access_token <- "*****************************"
access_token_secret <- "******************************"
setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)

#Followermap-Funktion laden
source("http://biostat.jhsph.edu/~jleek/code/twitterMap.R")

#Followermap-Funktion ausführen (erstellt ein PDF)
twitterMap("OfficialSanta",nMax=2000,plotType="followers",userLocation="Anchorage",fileName="Weihnachtsmann-Follower.pdf")

Das Ausführen dieser Funktion kann etwas länger dauern (durchaus einige Minuten). Es müssen schließlich die Koordinaten von bis zu 2000 Accounts abgefragt werden. Nach einiger Wartezeit erhält man eine solche Grafik:

Als Wohnsitz von Santa Claus wurde der North Pole in Alaska bei Fairbanks gewählt bzw. die nächstgrößte Stadt Anchorage.

Twitter-mining mit R – Teil 4: Sentiment Analysis mit R

2014-12-22 by Niels

Sentiment Analysis ist die „Stimmungsanalyse“ eines Textes. Beispielsweise werden Tweets dahingehend klassifiziert, dass sie eher positiven oder negativen Inhalt haben. Hierfür gibt es zwei Ansätze:

per Lernalgorithmus
lexikalisch

Ich verwende in diesem Beispiel die zweite Variante und werde einen lexikalischen Abgleich vornehmen, um die Tweets entsprechend ihres Wortinhalts als eher positiv oder eher negativ einzuordnen. Hierfür verwende ich eine Funktion von Jeffrey Breen:

score.sentiment = function(sentences, pos.words, neg.words, .progress='none')
{
  require(plyr)
  require(stringr)
  # we got a vector of sentences. plyr will handle a list
  # or a vector as an "l" for us
  # we want a simple array ("a") of scores back, so we use
  # "l" + "a" + "ply" = "laply":
  scores = laply(sentences, function(sentence, pos.words, neg.words) {   
    # clean up sentences with R's regex-driven global substitute, gsub():
    sentence = gsub('[[:punct:]]', '', sentence)
    sentence = gsub('[[:cntrl:]]', '', sentence)
    sentence = gsub('\\d+', '', sentence)
    # and convert to lower case:
    sentence = tolower(sentence)
    # split into words. str_split is in the stringr package
    word.list = str_split(sentence, '\\s+')
    # sometimes a list() is one level of hierarchy too much
    words = unlist(word.list)
    # compare our words to the dictionaries of positive & negative terms
    pos.matches = match(words, pos.words)
    neg.matches = match(words, neg.words)
    # match() returns the position of the matched term or NA
    # we just want a TRUE/FALSE:
    pos.matches = !is.na(pos.matches)
    neg.matches = !is.na(neg.matches)
    # and conveniently enough, TRUE/FALSE will be treated as 1/0 by sum():
    score = sum(pos.matches) - sum(neg.matches)
    return(score)
  }, pos.words, neg.words, .progress=.progress )
  scores.df = data.frame(score=scores, text=sentences)
  return(scores.df)
}

Die obige Funktion übernimmt die Kategorisierung. Nun fehlen noch die Tweets, für die ein Sentiment-Score errechnet werden soll und jeweils eine Wortliste mit positiven und negativen Worten, die hierfür verwendet wird.

Verbindung zu Twitter herstellen, Tweets abfragen und Wortliste downloaden

#-----------------------------------------------------
# --- Mit Twitter verbinden ---
#-----------------------------------------------------
library(twitteR)
# Authentifizierungsschlüssel eingeben
api_key <- "**************************"
api_secret <- "***************************"
access_token <- "*****************************"
access_token_secret <- "******************************"
setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)

#Tweet-Abfrage
hashtag.tweets = searchTwitter('LeaveItIn2014', n=900)
Tweets.text = laply(hashtag.tweets,function(t)t$getText())

#Emoticons in Tweets verursachen manchmal Probleme
tryTolower = function(x)
{
  # create missing value
  # this is where the returned value will be
  y = NA
  # tryCatch error
  try_error = tryCatch(tolower(x), error = function(e) e)
  # if not an error
  if (!inherits(try_error, "error"))
    y = tolower(x)
  return(y)
}
Tweets.text<-sapply(Tweets.text, function(x) tryTolower(x))

#Wortliste downloaden
pos <-scan('https://raw.githubusercontent.com/jeffreybreen/twitter-sentiment-analysis-tutorial-201107/master/data/opinion-lexicon-English/positive-words.txt', what='character', comment.char=';')
neg <- scan('https://raw.githubusercontent.com/jeffreybreen/twitter-sentiment-analysis-tutorial-201107/master/data/opinion-lexicon-English/negative-words.txt', what='character', comment.char=';')

[/code]
<strong>Sentiment Score der Tweets berechnen und visualisieren</strong>
[code language="r"]
#--Sentiment 1 berechnen
analysis<-score.sentiment(Tweets.text, pos, neg)
table(analysis$score)

library(ggplot2)
ggplot(analysis,aes(score)) + geom_bar(stat="bin",binwidth=1) +theme_bw() +scale_fill_brewer() + ggtitle("Sentiment-Score zu Hashtag `LeaveItin2014`")

Dies erzeugt folgende Grafik:
Unter dem Hashtag „Leaveitin2014“ twittern Menschen darüber, welche Erfahrungen, Handlungsweisen oder Einstellungen sie nicht mit ins neue Jahr nehmen wollen. Hier wird also eine Art subjektiver Bilanz für 2014 gezogen und in Vorsätze für 2015 umgewandelt. Der Graph ist so, wie er sich hier darstellt nicht ganz korrekt. Der größte Balken steht für den Sentiment-Score von Null, ist hier jedoch auf der X-Achse zwischen 0 und 1 angesiedelt. Besser wäre es, er würde durch die „0“ in der Mitte geteilt. Das werde ich bei Gelegenheit noch nachbessern.
Der Sentiment-Score der Tweets zum Hashtag „Leaveitin2014“ reicht von -7 (sehr negativ) bis 3 (moderat positiv). Null ist der Mittelpunkt.

Sentiment-Score Vergleich von „climate change“ und „global warming“
Inspiriert von diesem Artikel wollte ich einmal testen, ob tweets sich hinsichtlich ihres Sentiment-Scores unterscheiden, wenn sie „climate change“ oder „global warming“ als Begriffe für dasselbe Phänomen verwenden.

#Tweets besorgen
library(plyr)
library(dplyr)
warming.tweets = searchTwitter('global warming', n=900)
warming.text = laply(warming.tweets,function(t)t$getText())
change.tweets = searchTwitter('climate change', n=900)
change.text = laply(change.tweets,function(t)t$getText())

#Formatierung 
tryTolower = function(x)
{
  # create missing value
  # this is where the returned value will be
  y = NA
  # tryCatch error
  try_error = tryCatch(tolower(x), error = function(e) e)
  # if not an error
  if (!inherits(try_error, "error"))
    y = tolower(x)
  return(y)
}
warming.text<-sapply(warming.text, function(x) tryTolower(x))
change.text<-sapply(change.text, function(x) tryTolower(x))

#sentiment score berechnen
warming<-score.sentiment(warming.text, pos, neg)
change<-score.sentiment(change.text, pos, neg)

#Daten zusammenfügen und aggregieren
warming$Begriff<-c("global warming")
change$Begriff<-c("climate change")
all.scores<-rbind(change,warming)
all.scores$Begriff<-as.factor(all.scores$Begriff)

#Plotten
ggplot(all.scores) + geom_bar(aes(x=score,y=..count..),binwidth=1) + facet_grid(Begriff~.)+theme_bw()
table(all.scores$score)

Dies erzeugt die folgende Grafik:

Vergleich der Sentiment-Scores der Begriffe „climate change“ und „global warming“. Jeweils 900 Tweets als Datengrundlage.

Wie man sieht, gibt es hinsichtlich der Sentiment-Scores beider Begriffe kaum einen Unterschied. In beiden Balkendiagrammen hat der Sentiment-Score von Null den größten Anteil. Es gibt darüberhinaus in beiden Diagrammen eine leichte Tendenz zu negativen Inhalten.

Das hier, soll nur als erster Kontakt mit solchen Auswertungen verstanden werden. Wenn man in die obige Frage viel Zeit investiert, erhält man spannende Einsichten: Climaps.EU – State of Climate Change in digital media

Im nächsten Blogeintrag (Teil 5) zeige ich, wie man in einer Grafik die globale Verteilung der Follower eines Twitteraccounts visualisieren kann.

[Hier soll später noch eine Comparison Wordcloud mit Sentiment +/- als Gruppierungsvariable]

Twitter-mining mit R – Teil 3 – Erweiterte Wordclouds

2014-12-22 by Niels

Im letzten Blogeintrag (Teil 2) wurden die Ergebnisse einer Twitter-Suche als Wordcloud visualisiert. Man kann das Potential von Wordclouds noch etwas weiter ausschöpfen, wenn man Wordclouds miteinander vergleicht. Das folgende Beispiel orientiert sich an dem code von dieser Seite.

Wie immer, brauchen wir zuerst die Verbindung zwischen R und der Twitter-API.

#-----------------------------------------------------
# --- Mit Twitter verbinden ---
#-----------------------------------------------------
library(twitteR)
# Authentifizierungsschlüssel eingeben
api_key <- "**************************"
api_secret <- "***************************"
access_token <- "*****************************"
access_token_secret <- "******************************"
setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)

#--- Suchabfrage: 450 tweets mit dem Hashtag #rstats ---
tweets<-searchTwitter("christmas",n=450))
tweets

Comparison Wordcloud
Als Beispiel werde ich die Tweets der Bundestagsfraktionen von CDU, SPD und den Grünen abgreifen und jeweils einen Textkorpus erstellen, der dann zusammengefügt in einer einzelnen Wordcloud visualisiert wird. Jede Partei wird eine Wordcloud ihrer Farbe erhalten. Dadurch kann vielleicht ein Einblick erhalten werden, über welche inhaltlichen Schwerpunkte die Parteien jeweils am häufigsten twittern.

#Twitter Accounts der Bundestagsfraktionen CDU/CSU, SPD, Gruene(wordcloud)

library(tm)
library(wordcloud)
cdu.tweets<-userTimeline("CDUCSUBT",n=500)
spd.tweets<-userTimeline("SPDBT",n=500)
gruene.tweets<-userTimeline("GrueneBundestag",n=500)

# get text
cdu_txt = sapply(cdu.tweets, function(x) x$getText())
spd_txt = sapply(spd.tweets, function(x) x$getText())
gruene_txt = sapply(gruene.tweets, function(x) x$getText())

#text cleanings
clean.text = function(x)
{
# tolower
x = tolower(x)
# remove rt
x = gsub("rt", "", x)
# remove at
x = gsub("@\\w+", "", x)
# remove punctuation
x = gsub("[[:punct:]]", "", x)
# remove numbers
x = gsub("[[:digit:]]", "", x)
# remove links http
x = gsub("http\\w+", "", x)
# remove tabs
x = gsub("[ |\t]{2,}", "", x)
# remove blank spaces at the beginning
x = gsub("^ ", "", x)
# remove blank spaces at the end
x = gsub(" $", "", x)
return(x)
}

cdu_clean = clean.text(cdu_txt)
spd_clean = clean.text(spd_txt)
gruene_clean = clean.text(gruene_txt)

#join text
cdu = paste(cdu_clean, collapse=" ")
spd = paste(spd_clean, collapse=" ")
gruen = paste(gruene_clean, collapse=" ")
# put everything in a single vector
all = c(cdu, spd, gruen)

Die Daten sind nun vorbereitet und können geplottet werden.
An dem Punkt, an dem die TermDocumentMatrix erstellt wird, werden mittels „stopwords(„german“) häufig genannte deutsche Wörter („der“, „die“, „das“, „und“…) von der Auswertung ausgeklammert.

#WORDCLOUD COMPARISON
# create corpus
corpus = Corpus(VectorSource(all))
# create term-document matrix 
tdm = TermDocumentMatrix(corpus, control = list(removePunctuation = TRUE, stopwords = stopwords("german"),removeNumbers = TRUE))
# convert as matrix
tdm = as.matrix(tdm)
# add column names
colnames(tdm) = c("CDU", "SPD", "Grüne")

#PLOTTING
# comparison cloud
comparison.cloud(tdm, random.order=FALSE, colors = c("black", "red", "green"),max.words=100)

Die untenstehende Grafik ist das Ergebnis. Während bei der CDU/CSU-Fraktion häufig der Fraktionsvorsitzende Kauder erwähnt wird sowie der Nachruf auf „Schockenhoff“ viel Raum einnimmt, werden auch „Europa“, „Erbschaftssteuer“, „Ukraine“ und „Europa“ genannt. Auch bei den Grünen wird der Fraktionsvorsitzende (Hofreiter) am häufigsten genannt. Ansonsten ist die Klimakonferenz in Lima scheinbar ein Hauptthema. Der Twitteraccount der SPD-Bundestagsfraktion scheint ein breites Themenrepertoire zu haben, da sich keine einzelnen thematischen Schwerpunkte abheben. Jedoch zeigt sich wie bei der CDU und den Grünen, dass die Fraktionsvorsitzende Lambrecht häufig genannt wird.

Comparison Wordcloud. Tweets der Accounts der CDU, SPD und Grünen Bundestagsfraktion (je 450 tweets)

Commonality Cloud
Eine Alternative zur Comparison Wordcloud ist die Commonality Cloud. Sie wird ebenfalls mit der wordcloud-library erstellt.

# commonality cloud
commonality.cloud(tdm, random.order=FALSE, colors = brewer.pal(8, "Dark2"),title.size=1.5)

Leider kristalliert sich in der Commonality Cloud kaum Übereinstimmung ab. Eventuell sollten mehr Tweets abgegriffen und häufige Wörter wie „die, der, das“ aus der Analyse ausgeschlossen werden.

Jeweils 450 letzte Tweets der Accounts der CDU, SPD und Grünen Bundestagsfraktion als Commonality Cloud

Im nächsten Blogeintrag (Teil 4) zeige ich, wie eine einfache Sentiment Analysis mit Tweets durchgeführt werden kann.

Twitter-mining mit R – Teil 2 – Einfache Wordclouds

2014-12-22 by Niels

Hier wird gezeigt, wie in R Twitterdaten zu einfachen Wordclouds verarbeitet werden können. Wordclouds visualisieren die Häufigkeit von Wörtern, die mit einem bestimmten Wort (einem Hashtag oder Suchbegriff) zusammen genannt werden.

Die Basis für die Visualisierung sind Daten, die über die Rest-API von Twitter abgerufen werden (Siehe: https://statistics.ohlsen-web.de/twitter-mining-teil1/).

#-----------------------------------------------------
# --- Mit Twitter verbinden ---
#-----------------------------------------------------
library(twitteR)
# Authentifizierungsschlüssel eingeben
api_key <- "**************************"
api_secret <- "***************************"
access_token <- "*****************************"
access_token_secret <- "******************************"
setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)

#--- Suchabfrage: 450 tweets mit dem Hashtag #rstats ---
tweets<-searchTwitter("christmas",n=450))
tweets

Textkorpus für Wordcloud erstellen

Die Datenbasis für die Wordcloud haben wir jetzt. Jetzt benötigen wird die tm-library (textmining), um den Wortkorpus zu erstellen. Anschließend wird mit der wordcloud-library die Häufigkeit als Wordcloud erstellt. Das Paket RColorBrewer bietet verschiedene Farbschemas an, die genutzt werden können, wenn die Standardfarbgebung nicht gefällt.

Den Code für die Wordcloud habe ich von hier https://sites.google.com/site/miningtwitter/questions/talking-about/wordclouds/wordcloud1

library(tm)
library(wordcloud)
library(RColorBrewer)

#Tweet-Text extrahieren
tweet.tex<-sapply(tweets, function(x) x$getText())

#Aufgrund von emoticons &amp;co gibt es manchmal probleme.
#Das liegt daran, dass wir eine UTF-8 Codierung nutzen, viele chinesische Symbole, mathematische Symbole und Emoji-icons #länger als 4 bytes sind und zudem keine kleingeschriebene Variante enthalten. 
#Hier ist ein Workaround, um solche Zeichen zu übergehen:

http://gastonsanchez.com/blog/how-to/2012/05/29/Catching-errors-when-using-tolower.html

tryTolower = function(x)
{
# create missing value
# this is where the returned value will be
y = NA
# tryCatch error
try_error = tryCatch(tolower(x), error = function(e) e)
# if not an error
if (!inherits(try_error, "error"))
y = tolower(x)
return(y)
}
tweet.text<-sapply(tweet.text, function(x) tryTolower(x))

## Wortkorpus erstellen
tweet.corpus<-Corpus(VectorSource(enc2utf8(tweet.text)))

# removing numbers, punctuation symbols, lower case, etc.
tdm = TermDocumentMatrix(tweet.corpus, control = list(removePunctuation = TRUE, stopwords = c("follow"),removeNumbers = TRUE, tolower = TRUE))

#Worthäufigkeiten ermitteln
# define tdm as matrix
m = as.matrix(tdm)
# get word counts in decreasing order
word_freqs = sort(rowSums(m), decreasing=TRUE)
# create a data frame with words and their frequencies
dm = data.frame(word=names(word_freqs), freq=word_freqs)

Grafik plotten

wordcloud(dm$word, dm$freq, random.order=FALSE, colors=brewer.pal(8, "Dark2"))

Im Code für die TermDocumentMatrix gibt es das „stopwords(kind = „en“)“-Argument. Stopwords sind Worte, die aus der Wordcloud ausgeschlossen werden sollen, weil sie so häufig vorkommen und daher nicht informativ sind. Stopwords sind für verschiedene Sprachen verfügbar (danish, dutch, english, finnish, french, german, hungarian, italian, norwegian, portuguese, russian, spanish, and swedish).

Worthäufigkeiten aus 3000 Tweets zum Begriff „Weihnachten“

Wenn die Wordcloud zuviele einzelne Nennungen enthält, kann man z.B. mit min.freq=3 festlegen, dass nur Wörter angezeigt werden, die mindestens drei mal in der Wortliste enthalten sind.

wordcloud(dm$word, dm$freq, random.order=FALSE, colors=brewer.pal(3, "Dark2"),min.freq=3,max.words=100)
png("c:/wordcloud.png", width=800,height=800)

Nur Wörter, die mindestens 3 mal genannt wurden.

Mehrfache Berücksichtigung von Accounts

Mir ist aufgefallen, dass die Häufigkeit mancher Wörter aus Retweets resultiert. Besonders die jugendlichen Follower/Fans von bekannten Youtubern wie der Slimani-Familie scheinen Weltmeister im Retweeten jeder noch so kleinen Äußerung ihrer Vorbilder zu sein. Dieses Problem kann auch durch sogenannte „Retweet-Bots“ entstehen, die automatisiert alle Tweets mit einem bestimmten Wortinhalt retweeten.

Möglicherweise möchte man solche Accounts aus der Wordcloud ausfiltern. Zur Demonstration hier eine Grafik mit den TwitterAccounts, die durch Retweets den größten Anteil an der Wordcloud haben.

Die Daten wurden nach Häufigkeit absteigend sortiert und anschließend die Top 5% ausgewählt.

Hier der R-Code für die Grafik

#-----------------------------------------------------
#       --- Welche Accounts haben den höchsten Anteil an den tweets 
#-----------------------------------------------------
library(dplyr)
library(ggplot2)
        
#rohtweets zu dataframe umwandeln
tweets.df<-twListToDF(tweets)
counts<-as.data.frame(table(tweets.df$screenName))
 
#Mit dplyr nach Häufigkeit sortieren und top 5% auswählen
counts<- counts %>% arrange(desc(Freq)) %>% filter(cume_dist(desc(Freq)) < 0.05)

#erweiterte Farbpalette(Quelle: http://novyden.blogspot.de/2013/09/how-to-expand-color-palette-with-ggplot.html)
library(RColorBrewer)
colourCount<-length(unique(counts$Var1))
myPalette<-colorRampPalette(brewer.pal(9, "Blues"))

#counts<-as.factor(counts$Freq)
ggplot(counts, aes(reorder(Var1, Freq),Freq,fill=Var1)) + geom_bar(stat="identity") + coord_flip()+ theme_bw()+theme(legend.position="none") + xlab("Twitter-Accounts") + ylab("Häufigkeit") + scale_fill_manual(values = myPalette(colourCount))

Hier geht es weiter mit Teil 3 – Comparison Wordclouds.

Twitter-mining mit R – Teil 1 – Wie bekommt man die Daten?

2014-12-17 by Niels

In meinem ersten Blogeintrag geht es darum, wie in RStudio eine Verbindung zu Twitter als Datenquelle eingerichtet werden kann, um Daten für eigene Auswertungen zu erhalten.

Was ist Twitter?

Twitter ist ein soziales Netzwerk, das häufig als „Microblogging“ bezeichnet wird. Micro, weil Tweets auf 140 Zeichen beschränkt sind. Also 20 Zeichen weniger als eine SMS. Im Unterschied zur SMS gibt es auch nicht nur einen Empfänger, sondern so viele Empfänger wie einer Person folgen. Twitter ist überdies ein asymetrisches soziales Netzwerk. Wenn ich einem Account folge, heisst dies nicht, dass dieser Account auch automatisch mir folgt. Wenn man eine bestimmte Person adressieren möchte, macht man das mit dem Namen des Accounts, der mit einem „@“-Zeichen beginnt. Das sollte als grobe Information reichen.
Wie ein Twitter-Account in der Praxis aussieht, kann hier rechts in der Seitenleiste gesehen werden.

Twitter als Datenbasis

Um auf die Daten von Twitter zuzugreifen gibt es zwei Zugänge bzw. APIs.
API ist die Kurzform für „Application Programming Interface“ und ermöglicht es Entwicklern, auf die Daten zuzugreifen und sie für eigene Projekte zu nutzen. Ich beschränke mich hier auf kostenlose Zugänge, die jedoch limitiert sind. Wer vollen Zugriff möchte und Kosten nicht scheut, kann seinen Zugang z.B. mittels Twitter Firehose realisieren.

Für den Moment sind diese beiden APIs interessant:

Search API (auch: Rest API)

Retrospektive Suche in schon geschriebenen Tweets mit best. Kriterien

Streaming API

Prospektive Festlegung von Kriterien, nach denen Tweets fortlaufend „aufgezeichnet“ werden

Der Unterschied liegt also darin, dass die Search API vom Zeitpunkt der Abfrage ungefähr eine Woche rückwärts nach den entsprechenden Tweets sucht, die Search API Abfrage hingegen erst in dem Moment beginnt, in dem sie gestellt wird. Der Stream ist limitiert auf ca. 1% aller Tweets. Wieviele Tweets die Search-API liefert, hängt von der Art der Abfrage ab. Die Search API bietet speziellere Abfragemöglichkeiten an, ist aber insgesamt stärker begrenzt als die Streaming API.

Vorraussetzungen für Twitter-Mining mit R

aktuelle Version von RStudio
Diverse R-libraries
- twitteR für Search API
- streamR für Streaming API
Twitter-Account
Twitter-App im Entwicklerbereich von Twitter-erstellen

Twitter-App für Datenzugang erstellen

Das R-Paket „twitteR“ ermöglicht die Verbindung zur Twitter Search-API mittels Oauth. Oauth ist ein Protokoll, dass einer Anwendung ermöglicht sich mit dem Twitter-Account anzumelden, ohne ein Passwort eingeben zu müssen. Das funktioniert über einen ACCESS-TOKEN. Diese Access-Tokens haben eine beschränkte Lebensdauer. Man kann sie aber jederzeit neu generieren.

Twitter öffnen und mit eigenemAccount einloggen
http://dev.twitter.com/ öffnen
ganz unten unter „tools“ auf „manage your Apps“ klicken

Hier klicken, um eine eigene App zu erstellen.

Bei „manage your app“ klicken, um eine eigene App zu erstellen.Bei „Create a New App“ eine neue App anlegen.

Auf der erscheinenden Seite „create new app“ anklicken

Name der App eingeben (Darf nicht schonmal vergeben worden sein)
Beliebige Website URL eingeben
callback URL freilassen

Auf die Seite der Anwendung gehen und unter den „Application Settings“ auf „manage keys and access tokens“ gehen, eventuell „Create Access TOKEN“ anklicken und die Oauth-Keys kopieren (Darauf achten, keine Leerzeichen mitzukopieren)

Klick auf „manage keys and access tokens“ für die Zugangsschlüssel

Diese Informationen müssen rüber zu R kopiert werden:

Consumer Key (API-Key)
Consumer Secret (API-Secret
Access-Token
Access Token Secret

Sie finden sich hier:

Api-Token der App kopieren und in RStudio einfügen

Variante 1: R-Code um R mit der Search/Rest API von Twitter zu verbinden

#—————————————————–
# — Mit Twitter verbinden —
#—————————————————–

# Das twitteR package muss wie folgt installiert werden
install.packages(c("devtools", "rjson", "bit64", "httr"))
library(devtools)
install_github("twitteR", username="geoffjentry")

#twitteR package laden
library(twitteR)

# Authentifizierungsschlüssel eingeben
api_key <- "**************************"
api_secret <- "***************************"
access_token <- "*****************************"
access_token_secret <- "******************************"

setup_twitter_oauth(api_key,api_secret,access_token,access_token_secret)

#--- Suchabfrage: 450 tweets mit dem Hashtag #rstats ---
tweets<-searchTwitter("#rstats",n=450))
tweets

Variante 2: R mit Streaming API von Twitter verbinden
Die Verbindung per Streaming-API erfordert eine leicht abgeänderte Vorgehensweise.

#-----------------------
#  API Verbindung einrichten
#-----------------------
install.packages('streamR')
install.packages("ROAuth")
install.packages("RCurl")
library(RCurl)
library(ROAuth)
library(streamR)

#API Key und API Secret kopieren
api_key<-"************"
api_secret<-"**************"

# SSL certs festlegen
options(RCurlOptions = list(cainfo = system.file("CurlSSL", "cacert.pem", package = "RCurl"))) #dieser Schritt ist bei manchen Windows-PCs nötig

#Verbindungsdaten
my_oauth <- OAuthFactory$new(consumerKey=api_key,
consumerSecret=api_secret,
requestURL='https://api.twitter.com/oauth/request_token',
accessURL='https://api.twitter.com/oauth/access_token',
authURL='https://api.twitter.com/oauth/authorize')

my_oauth$handshake(cainfo = system.file("CurlSSL",+ "cacert.pem", package = "RCurl"))

An diesem Punkt öffnet sich das Browserfenster. Der App muss nun die Verbindung erlaubt werden, anschließend wird eine PIN angezeigt. Diese PIN muss in die Console von R eingeben werden.

Nun besteht die Verbindung von R und Twitter und wir können die Streaming API nutzen:

library(streamR)
# 30 Sekunden Stream aller Tweets mit Hashtag #ff
tweets<-filterStream(file.name="C:/Speicherort/tweets.json",+ track=c("ff"), timeout=30, oauth=my_oauth)
tweets

Falls das Ergebnis keine Tweets bringt, am besten ein Hashtag auswählen, zu dem aktuell viel getwittert wird, oder einen längeren Streaming-Zeitraum nutzen.

Hier geht es mit der Teil 2 – Visualisierung von Worthäufigkeiten in Wordclouds weiter.

analysis, visualisation and playing around with data

Month: Dezember 2014

Twitter-mining mit R – Teil 5 – Followermap

Twitter-mining mit R – Teil 4: Sentiment Analysis mit R

Twitter-mining mit R – Teil 3 – Erweiterte Wordclouds

Twitter-mining mit R – Teil 2 – Einfache Wordclouds

Twitter-mining mit R – Teil 1 – Wie bekommt man die Daten?