第1008回 ドキッ!分析屋だらけの、大ザーユー会 -...
TRANSCRIPT
第1008回 ドキッ!分析屋
だらけの、大ザーユー会
ブログの類似記事を表示させてみる(LTのネタが無かったので、今日作った)
自己紹介
● 電気通信大学大学院修士一年● 早川 敦士(@gepuro)● 専攻:信頼性工学、品質管理● 研究テーマ:オンライン状態監視システムを用
いた保全活動の改善● 興味:(データ|テキスト)マイニング、マーケティン
グなど
活動
執筆に関わったり
iAnalysis合同会社で、仕事を手伝ったり、
gepulog(http://blog.gepuro.net)でブログを更新したり。
こんなブログです。
勉強がてら、
Flask(Pythonのマイクロフレームワーク)で作成
さくらVPS 1Gプランでサービスを動かしてる。
● きっかけは○ ノリで独自ドメインを買った○ wordpressのインストールでコケたので、自分で作った。
データベースは、sqlite3とmemcachedを使ってる。
レスポンスは問題ない。
完成品は、
似ているかもしれない記事を表示するが
→あまり似てない
何故だ?
中身は、
1. mecabで単語を切り出す2. コサイン類似度
以上。
これだけでは、上手くいかないですね。
● 名詞も形容詞も副詞など全部使ってる。● 辞書は追加していない● ソースコードが書かれている記事に対して、特
殊な処理を行なってない。● タグを利用していない。● コサイン類似度以外は試していない
実装方法
裏で、バッチを回してます。
サーバのメモリを節約するために、シェルスクリプトを多用してます。必要な時に、必要なだけリソースを消費する。
実装方法
結果は散々だけど、
関連記事を表示させることによって、内部リンクが増えるので、サイトの滞在時間が伸びると嬉しい。
今後、調査したい。
● 調査に十分なアクセスがない。
コンテンツを充実させるのが先なのでは?
データだけじゃなくて、
データを分析してアレコレやるだけじゃなくて、
提供するコンテンツの量や質も大事だと気付かされました。
今後も、学んだり・感じた事をブログに残していこう。