JPNIC Blog JPNIC

IW資料のテキストマイニングをやってみた

tech_team 

Google DeepMind社のAlphaGoがプロ棋士に対して勝ち越したというニュースが話題になりました。 1996年、チェスで初めてスーパーコンピュータがチャンピオンに勝った当時は「チェスで勝てても将棋では勝てない」「囲碁ではもっと無理」といった様相だったものが、 それから20年ほどでひっくり返されたことになります。

それに触発されたということもあり、 Internet Weekの資料を対象にテキストマイニングをしてみました。 2013年から2015年までの各年ごとのInternet Weekの公開資料から文字を抽出し、 KH Coderを利用してその年のInternet Weekで何が話題に上ったのか、 調べてみました。

ただし、あくまで公開資料が対象であるため、 実際の講演内容を反映している訳ではありません。 セッションによっては資料なしで発表者のトークのみで進行する場合があります。 また、パネルディスカッションのように、 議論が中心でそこで話された内容や結論が重要となるものでは、資料は参考程度、 場合によっては資料と講演とで結果が異なることもあるでしょう。

とはいえ、事前に公開された資料ということなので、 見方を変えれば「何を語りたかったか」の指標とも捉えることができると思います。 統計に関して初心者が作ったものとして、 あまり深く考えずに「そういう見方もできるよね」程度でご覧ください。

2013年

クリックすると、図を拡大できます。

2013年の共起ネットワークです。 共起、すなわち文章で一緒によく使われる単語を線で結んだネットワーク図です。 図の見方は次の通りです。

円が大きいほどその単語が資料中で頻繁に使われていることを表し、 ピンクのものは中心性が高い(ネットワークの各ノードから到達できる経路が多い)ことを示します。 また、ノードの場所は関係なく、 線で結ばれているかどうかだけに意味があります。 線の太さは共起の強さ(同時に使われやすいか)を表します。

目立つのは中央部分の「国際」「動向」や、 右の「ICANN」「gTLD」等の流れでしょうか。 左上には無線LAN関係の単語が強く関連して並びます(言葉の揺れのためか、 「Wi-Fi」が離れて位置しています)。 「IP」「アドレス」は頻出するものの、 共起する対象にはあまり含まれていないようです。

クリックすると、図を拡大できます。

部分ネットワークごとに色分けしたものです。 ぼんやりと話題のカテゴリが見えます。

2014年

クリックすると、図を拡大できます。
クリックすると、図を拡大できます。

2014年の共起ネットワークです。 「セキュリティ」「サイバー」「会議」「戦略」等がつながり、 また「通信」「秘密」「電気」「事業」も面白いところです。

2015年

クリックすると、図を拡大できます。
クリックすると、図を拡大できます。

2015年の共起ネットワークです。 2013年、2014年とは変わって、国際動向に関する単語はあまり目立たず、 代わりに「個人」「情報」に関するネットワークが出来ています。 「番号」「カード」とも強く結びついているのでマイナンバー関連でしょうか。 セキュリティや通信の秘密についてもひとつのグループになっています。

というわけで、 Internet Weekの資料についてテキストマイニングを用いてざっと眺めてみました。

テキスト分析・テキストマイニングという意味では入り口に立っただけで、 さらに調査を進めるのが本来ではありますが、 とりあえずそこそこ興味深いものが浮かび上がっているのではないでしょうか。

今年もJPNICはInternet Weekを開催する予定です。 ホットな話題を多くご紹介すべく、準備を進めています。 ぜひご期待ください。

KH Coder Index Page
http://khc.sourceforge.net/
KH Coder チュートリアル(スライド版)
http://www.slideshare.net/khcoder/kh-coder-28776074
Internet Week
https://www.nic.ad.jp/ja/materials/iw/

この記事を評価してください

この記事は役に立ちましたか?
記事の改善点等がございましたら自由にご記入ください。

このフォームをご利用した場合、ご連絡先の記入がないと、 回答を差し上げられません。 回答が必要な場合は、 お問い合わせ先 をご利用ください。