Webニュースを自動的に検索するシステムを開発
 株式会社タカオ・アソシエイツは、このほど自社内向けに、ニュースサイトの記事を自動的に検索し、必要な記事をリスト化して閲覧することができる「Meguri System(メグリシステム)」を開発しました。
 本システムは、汎用のプログラミング言語である「Python(パイソン)」をメインのプログラムとして用い、ニュースサイトを検索して必要な情報をリスト化するための「Webスクレイピング」と、掲載記事を見るための「Webアーカイブ」によって構築。検索項目はデータベースに登録し、記事の重複を排除するための内部処理機能も有しています。
 使用方法は、「Meguri System」のトップページにあるメニュー欄から検索ボタンをクリックし、調査対象(企業名など)、メディア(Yahoo!ニュースなど)、年月日を入力するだけで、該当する記事の一覧(見出し、配信元など)がCSVファイル形式で表示されます。また、データの取得は夜間に行うようにセッティングしているため、日常業務の妨げにはなりません。
 なお、本システムは、著作権を考慮し、あくまでも社内で行う報道分析に限って使用しています。また、対象サーバーの負荷を避けるために、リスト取得やクリッピング取得の時間に一定の間隔を設けるなどの工夫を施しています。