鴨川η

Antisocial Behavior in Online Discussion Communities 読んだ

当該の論文はこれ

基本的に(nzw:)はnzwが感じことなどを書きます.

既存研究との違い

既存研究では,少人数のコミュニティを対象に人力で解析していたが,この研究では大規模なデータを解析

概要

ニュースサイトやゲームサイトなどのコミュニティでは,ユーザ同士で議論を行うことができる. この論文でも使われているコミュニティサイトだと のように1つの記事に対してコメント書くことができ,それに対してリプライできる. (nzw:1記事に5000以上のコメントが付いているのでデータ量はかなりある印象)

これらのコミュニティでは,釣りなど迷惑行為を行うユーザが問題となる. そこで迷惑行為(antisocial behavior)を行うユーザの特徴を調べ,コミュニティに参加した初期段階でそのユーザが将来的にバンされるかを予測を行う. 永久的にバンされたユーザを迷惑行為を行うユーザの正解データと定義して実験.

扱うデータの特徴は以下のような感じ

  • 記事に対してユーザはコメントをつけることができる
  • コメントにvoteやリプライできる
  • 管理者によってだけ投稿は削除される
  • ユーザは他のユーザの投稿を報告できる
  • 迷惑行為がひどいユーザは管理者からバンされる

この研究で使われる手法としては統計解析,機械学習(ロジスティック回帰とランダムフォレスト),クラウドソーシング(mechanical task).

以下では,論文に合わせて,バンされるユーザをFBUs,バンされないユーザをNBUsと表記. 実験の結果から明らかになったことは

  • FBUsの投稿文は読みにくい(ARIで計算)
  • FBUsはリプライを受けやすい
  • FBUsは複数のスレッド(スレッドは記事の単位)ではなく一部のスレッドに集中しやすい
  • FBUsの投稿内容は時間経過にともない悪化
  • 時間経過によってコミュニティから寛容的に見られなくなる
  • FBUsの平均投稿回数は264回(一般的なユーザは平均22回)
  • FBUsの投稿は同じスレッドの前の投稿文と比べると類似度が低い
  • 他ユーザと同じような投稿内容でも自分だけ削除されると迷惑行為は悪化

あるユーザがバンされるかの予測では,最初の5~10投稿を使うだけで十分な性能であった. 投稿数が増えるほどバンされるかの予測が困難になる.

また別のコミュニティサイトで学習したモデルを使っても性能が出る(特徴量は論文の表3を参照)