2015年10月 のアーカイブ


3年くらい前から、IT系、技術系の情報をクリップしていました

http://week.dgdk.net/
SNSのシェアやブックマークサービスなどを使っても良かったのですが、分類するのが面倒だったので、ページタイトルから形態素分析で単語に分けてタグ付けしとけばオーケーみたいな感じのものを作って記録していました。

クリップの仕組み

ページのクリップはChromeの拡張機能を自作しました。単純に該当ページのtitleタグとURLをサーバに送信するだけの拡張機能です。
拡張機能から送信されたtitleタグの文字列は、Yahooの形態素解析へ送信して単語に分割します。その後、title、URL、分割した単語を、それぞれ記事のタイトル、本文、タグとしてwordpressに投稿します。投稿は即公開されます。
実際の操作は、気になったページを開いて拡張機能ボタンをクリックするだけ。拡張機能ボタンなのでメニューを開くこともなく、1クリックだけで記録できる。

ざっくりな形態素解析ではあるけれど、それなりに興味深い

終了なんてタグで検索すると、色々なサービスが終了したことを知ることができるし、そのサービス名のタグで検索すると、開始した時のリリースなんかも見つかったりします。たとえばタクシー配車サービスのHailo
さすがに3年続けていると始まりと終わりの両方が把握できるもんだな、なんていう感慨にふけります。

ここから先はあるあるネタ

分類の手法で常に出てくるものとしては、類語でタグができてしまうのを整理できれば、とは思います。オラクルoracleのような状態を1つに出来ればモアベター。
形態素解析の元がページのタイトルなので、サイト自体のタイトルもタグになってしまうのはノイズの要因になっています。朝日新聞なんかがそうです。フィルタをかけて外したりもできるのでしょうけれど。
それと、やっていて気づいたのが、ページのタイトルに本文の内容を表記しない所がそれなりにあるということ。例えば日立のニュースリリースは「ニュースリリース:日付:日立」の形式なので、同日のリリースはすべて同じタイトルになるし、amazonなんかはそもそもtitleタグが無かったりします。発信する側はそういう所まで気にしない傾向があるのかも知れません。