<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://feeds.glassleaf.info/~d/styles/rss2japanesefull.xsl" type="text/xsl" media="screen"?><?xml-stylesheet href="http://feeds.glassleaf.info/~d/styles/itemcontent.css" type="text/css" media="screen"?><rss xmlns:feedburner="http://rssnamespace.org/feedburner/ext/1.0" version="2.0">
   <channel>
      <title>Glassleaf - Plagger</title>
      <link>http://glassleaf.info/blog/</link>
      <description>Plagger</description>
      <language>ja</language>
      <copyright>Copyright 2008</copyright>
      <lastBuildDate>Fri, 15 Jun 2007 21:01:14 +0900</lastBuildDate>
      <generator>http://www.sixapart.com/movabletype/</generator>
      <docs>http://blogs.law.harvard.edu/tech/rss</docs> 

            <atom10:link xmlns:atom10="http://www.w3.org/2005/Atom" rel="self" href="http://feeds.glassleaf.info/Glassleaf-plagger" type="application/rss+xml" /><feedburner:emailServiceId>25386</feedburner:emailServiceId><feedburner:feedburnerHostname>http://www.feedburner.jp</feedburner:feedburnerHostname><item>
         <title>Plaggerで全文取得 (5)・ファミ通.comのTVゲーム関連記事とランキングを取得する</title>
         <description><![CDATA[<p>
<strong>Plagger</strong>の<strong>EntryFullText</strong>プラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。
</p>

<p>
<br />
<a href="http://www.famitsu.com/game/" target="_blank"><strong>ファミ通.com TVゲームニュース</strong></a>
</p>

<p>
昨日の電撃に続いてテレビゲーム関連のニュース・出版最大手である『ファミ通』のウェブサイトからニュース記事とランキングデータを取得します。<br />
ファミ通のサイトで標準提供されているRSSにはサイト内で提供している携帯電話向けゲームやPCゲーム、アニメ情報、ファミ通ブログなどの更新データが全てごっちゃに含まれていてテレビゲームの記事だけ読むには邪魔です。<br />
そこでTVゲームニュースの<a href="http://www.famitsu.com/game/">トップページ</a>をcustom_feedを使用して購読しよけいな記事は除外します。<br />
電撃とは違ってタイトルやURLから機種の特定が出来ないので特定機種の情報のみ欲しい場合は本文を機種名でフィルタリングする必要があります。
</p>

<p>
<em>PATH: assets/plugins/Filter-EntryFullText/famitsu_tvgame.yaml</em>
</p>

<pre class="code">
#&nbsp;famitsu.com&nbsp;TV&nbsp;game&nbsp;news
#&nbsp;http://www.famitsu.com/game/

author:&nbsp;Kazuya@glassleaf
custom_feed_handle:&nbsp;http://www.famitsu.com/game/
custom_feed_follow_link:&nbsp;/game/(rank|news|coming).*?/\d{4}/\d{2}/\d{2}/.*?html
handle:&nbsp;http://www.famitsu.com/game/(rank|news|coming).*?/\d{4}/\d{2}/\d{2}/.*?html
extract:&nbsp;&lt;div&nbsp;class=&quot;topic_path&quot;&gt;.*?&lt;h1&gt;(.*?)&lt;.*?&lt;div&nbsp;class=&quot;article_date&quot;&gt;(.*?)&lt;.*?&lt;!--story&nbsp;start--&gt;(.*?)&lt;!--story&nbsp;end--&gt;
extract_capture:&nbsp;title&nbsp;date&nbsp;body</pre>

<p>
ランキング情報は昨日の電撃よりもファミ通の方が読みやすいですね。<br />
記事URLが特徴的なのでランキング、ニュース、新作紹介のページだけを簡単に抽出できます。<br />
切り出したページをそのまま同じデザインで読めるので特別な事をする必要もありません。<br />
しかし、各記事のページに&lt;h1&gt;タグが無数にあるのはHTML構造的にどうかと思います。
</p>]]></description>
         <link>http://feeds.glassleaf.info/~r/Glassleaf-plagger/~3/http%3A%2F%2Fglassleaf.info%2Fblog%2Farchives%2F20070615210114.php</link>
         <guid isPermaLink="false">http://glassleaf.info/blog/archives/20070615210114.php</guid>
                  <category domain="http://www.sixapart.com/ns/types#category">PC・インターネット</category>
                  <category domain="http://www.sixapart.com/ns/types#category">Plagger</category>
        
                  <category domain="http://www.sixapart.com/ns/types#tag">EntryFullText</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">Plagger</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">ゲーム</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">野良EFT</category>
        
         <pubDate>Fri, 15 Jun 2007 21:01:14 +0900</pubDate>
      <feedburner:origLink>http://glassleaf.info/blog/archives/20070615210114.php</feedburner:origLink></item>
            <item>
         <title>Plaggerで全文取得 (4)・電撃オンラインのニュースとランキング情報を取得する</title>
         <description><![CDATA[<p>
<strong>Plagger</strong>の<strong>EntryFullText</strong>プラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。
</p>

<p>
<br />
<a href="http://www.dengekionline.com/index.html" target="_blank"><strong>電撃オンライン</strong></a>
</p>

<p>
ゲームの総合情報サイト『電撃オンライン』のニュース記事と週間ランキングデータを取得します。<br />
特定のハードに関する情報だけ欲しい場合は適宜タイトルからフィルタリングして不要な情報を弾いて使います。
</p>

<p>
<em>PATH: assets/plugins/Filter-EntryFullText/DengekiOnline.yaml</em>
</p>

<pre class="code">
#&nbsp;dengeki&nbsp;online&nbsp;news
#&nbsp;http://www.dengekionline.com/index.html
#&nbsp;http://www.dengekionline.com/data/rss/

author:&nbsp;Kazuya@glassleaf
handle:&nbsp;http://www.dengekionline.com/
extract:&nbsp;&lt;B&gt;&lt;FONT&nbsp;color=#ffffff&gt;(.*?)（.*?FEEDs---&gt;(.*?)&lt;!---\[NEWS\]&nbsp;FEEDe---&gt;|&lt;div&nbsp;id=&quot;soft_main&quot;&gt;(.*?&lt;/table&gt;)
extract_capture:&nbsp;date&nbsp;body&nbsp;body2
extract_date_format:&nbsp;%Y年%m月%d日
extract_after_hook:&nbsp;|
&nbsp;&nbsp;$data-&gt;{body}&nbsp;=~&nbsp;s/width=510//;
&nbsp;&nbsp;$data-&gt;{body}&nbsp;=~&nbsp;s|CATCHs---&gt;.*?CATCHe||s;
&nbsp;&nbsp;$data-&gt;{body}&nbsp;.=&nbsp;$data-&gt;{body2}
</pre>

<p>
ランキングデータのページはテーブルレイアウトで色分けなどをしているのですが、全文取得データにはCSSが含まれないので多少読みにくくなります。
</p>

<p>
正規表現のOR条件(|)でニュース記事のページにマッチした場合とランキングのページにマッチした場合のデータを別の変数(body,body2)に入れています。<br />
そしてextract_after_hook の最後でbodyとbody2の内容をひとつにまとめて最終的な出力データにしています。<br />
正規表現はそれほど詳しくないので複数のHTMLパターンがあるサイトにすべてマッチさせる方法はこれ以外に知りません。<br />
だから、もっとシンプルでスマートな方法があるのかもしれません。
</p>

<p>
今回も日時取得の部分で正規表現内に日本語を使用していますので保存する文字コードに気をつける必要があります。<br />
<strong>文字コードはUTF-8、改行コードはLF</strong>という感じで。<br />
保存する文字コードを間違えていると全文取得に失敗します。<br />
YAMLファイルは正しくてもなぜかマッチングに失敗する時にたいてい陥ってるハマリパターンです。
</p>]]></description>
         <link>http://feeds.glassleaf.info/~r/Glassleaf-plagger/~3/http%3A%2F%2Fglassleaf.info%2Fblog%2Farchives%2F20070614204700.php</link>
         <guid isPermaLink="false">http://glassleaf.info/blog/archives/20070614204700.php</guid>
                  <category domain="http://www.sixapart.com/ns/types#category">PC・インターネット</category>
                  <category domain="http://www.sixapart.com/ns/types#category">Plagger</category>
        
                  <category domain="http://www.sixapart.com/ns/types#tag">EntryFullText</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">Plagger</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">ゲーム</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">野良EFT</category>
        
         <pubDate>Thu, 14 Jun 2007 20:47:00 +0900</pubDate>
      <feedburner:origLink>http://glassleaf.info/blog/archives/20070614204700.php</feedburner:origLink></item>
            <item>
         <title>Plaggerで全文取得 (3)・任天堂系ゲームニュースサイト『iNSIDE』のニュース記事を取得</title>
         <description><![CDATA[<p>
<strong>Plagger</strong>の<strong>EntryFullText</strong>プラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。
</p>

<p>
<br />
<a href="http://www.inside-games.jp/" target="_blank"><strong>iNSIDE - ゲームニュース&コミュニティ</strong></a>
</p>

<p>
任天堂系のゲームニュース＆コミュニティの総合サイト『iNSIDE』のニュース記事をPlaggerを使用して取得します。<br />
任天堂ファンやWii、ニンテンドーDSのゲーム情報が気になる方は必見のサイトです。
</p>

<p>
<em>PATH: assets/plugins/Filter-EntryFullText/inside_games.yaml</em>
</p>

<pre class="code">
#&nbsp;inside&nbsp;games
#&nbsp;http://www.inside-games.jp/news/

author:&nbsp;Kazuya@glassleaf
handle_force:&nbsp;http://www.inside-games.jp/news/
extract:&nbsp;&lt;SPAN&nbsp;style='font-size:14px'&gt;(.*?)&lt;/SPAN&gt;.*?&lt;SPAN&nbsp;style='font-size:15px'&gt;(.*?)&lt;/SPAN&gt;
extract_capture:&nbsp;date&nbsp;body
extract_date_format:&nbsp;%Y年%m月%d日\([日月火水木金土]\)&nbsp;%H時%M分</pre>

<p>
日時情報取得で日本語を使用していますので保存する文字コードに気をつける必要があります。<br />
文字コードはUTF-8、改行コードはLFという感じで。
</p>

<p>
iNSIDEはつい最近まで国内最大のゲーム系個人ニュースサイトでしたがIRIのメディア部門が買収し今月からはPCのネットワークゲーム・モバイルゲームに関するニュースも新たに配信しています。
</p>

<p>
その件については、こちらで書いてます。<br />
<a href="http://glassleaf.info/blog/archives/20070602145316.php" target="_blank">Nintendo iNSIDEが買収された | Glassleaf (2007年06月02日)</a>
</p>

<p>
<br />
<strong>追記(2007年6月13日)</strong>
</p>

<p>
iNSIDEのRSSに概要文が含まれるようになって本文取得出来なくなったのでアップデートしました。<br />
handleをhandle_forceに変更して概要文があっても取得しにいくようにしただけです。
</p>]]></description>
         <link>http://feeds.glassleaf.info/~r/Glassleaf-plagger/~3/http%3A%2F%2Fglassleaf.info%2Fblog%2Farchives%2F20070611203926.php</link>
         <guid isPermaLink="false">http://glassleaf.info/blog/archives/20070611203926.php</guid>
                  <category domain="http://www.sixapart.com/ns/types#category">PC・インターネット</category>
                  <category domain="http://www.sixapart.com/ns/types#category">Plagger</category>
        
                  <category domain="http://www.sixapart.com/ns/types#tag">EntryFullText</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">Plagger</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">ゲーム</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">任天堂</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">野良EFT</category>
        
         <pubDate>Mon, 11 Jun 2007 20:39:26 +0900</pubDate>
      <feedburner:origLink>http://glassleaf.info/blog/archives/20070611203926.php</feedburner:origLink></item>
            <item>
         <title>Plaggerで全文取得 (2)・秋山奈々オフィシャルブログ</title>
         <description><![CDATA[<p>
<strong>Plagger</strong>の<strong>EntryFullText</strong>プラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。
</p>

<p>
<br />
<a href="http://blog.jvcmusic.co.jp/blog/akiyama-nana/"><strong>秋山奈々オフィシャルブログ【StilL ProgresS+】</strong></a>
</p>

<p>
秋山奈々ちゃんは二年前にテレビ朝日系で放送していた<a href="http://www.toei.co.jp/tv/hibiki/">仮面ライダー響鬼</a>の天美あきら役の子です。<br />
RSSは全文配信してますが写真ナシ＆改行ナシでそのままでは激しく読みにくいのでEFT書きました。<br />
秋山奈々ファンでPlaggerユーザで自分でEFTを用意出来ない方はどうぞ使ってください。<br />
って、どんだけニッチな層向けw
</p>

<p>
<em>PATH: assets/plugins/Filter-EntryFullText/akiyama_nana.yaml</em>
</p>

<pre class="code">
#&nbsp;akiyama&nbsp;nana&nbsp;blog&nbsp;StilL&nbsp;ProgresS+
#&nbsp;http://blog.jvcmusic.co.jp/blog/akiyama-nana/

author:&nbsp;Kazuya@glassleaf
handle_force:&nbsp;http://blog.jvcmusic.co.jp/blog/akiyama-nana/
extract:&nbsp;&lt;div&nbsp;class=&quot;date&quot;&gt;(.*?)&lt;/div&gt;(.*?)&lt;div&nbsp;class=&quot;news-footer&quot;&gt;
extract_capture:&nbsp;date&nbsp;body
extract_date_format:&nbsp;%Y.%m&nbsp;%d&nbsp;[.]&nbsp;%H:%M分
extract_date_timezone:&nbsp;Asia/Tokyo

</pre>

<p>
秋山奈々ちゃんは最近は歌手としても活動してます。
</p>]]></description>
         <link>http://feeds.glassleaf.info/~r/Glassleaf-plagger/~3/http%3A%2F%2Fglassleaf.info%2Fblog%2Farchives%2F20070610182402.php</link>
         <guid isPermaLink="false">http://glassleaf.info/blog/archives/20070610182402.php</guid>
                  <category domain="http://www.sixapart.com/ns/types#category">PC・インターネット</category>
                  <category domain="http://www.sixapart.com/ns/types#category">Plagger</category>
        
                  <category domain="http://www.sixapart.com/ns/types#tag">EntryFullText</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">Plagger</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">秋山奈々</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">野良EFT</category>
        
         <pubDate>Sun, 10 Jun 2007 18:24:02 +0900</pubDate>
      <feedburner:origLink>http://glassleaf.info/blog/archives/20070610182402.php</feedburner:origLink></item>
            <item>
         <title>Plaggerで全文取得 (1)・宇多田ヒカルの日記を攻略する</title>
         <description><![CDATA[<p>
<strong>Plagger</strong>の<strong>EntryFullText</strong>プラグイン用に自分で作って使ってるyamlファイルをちょぼちょぼと公開します。いわゆる野良EFTってやつです。
</p>

<p>
<a href="http://www.u3music.com/message/" target="_blank"><strong>Message from Utada Hikaru / Utada</strong></a>
</p>

<p>
宇多田ヒカルのオフィシャルサイトに彼女が書いている日記がありますが、残念ながら一般に使用されてるブログシステムとは違うので購読用のRSSなどは用意されてません。そこでPlaggerを使ってコンテンツをサイトから全文取得してフィード化しRSSリーダーで本文を購読出来るようにします。
</p>

<p>
<em>PATH: assets/plugins/Filter-EntryFullText/Utada.yaml</em>
</p>

<pre class="code">
#&nbsp;Message&nbsp;from&nbsp;Utada&nbsp;Hikaru&nbsp;/&nbsp;Utada
#&nbsp;http://www.u3music.com/message/

author:&nbsp;Kazuya@glassleaf
custom_feed_handle:&nbsp;http://www.u3music.com/message/
custom_feed_follow_link:&nbsp;/message/.*?xml
handle:&nbsp;http://www.u3music.com/message/.*?xml
extract:&nbsp;&lt;div&nbsp;class=&quot;blue&quot;&gt;(.*?)&lt;/div&gt;.*?(&lt;!--Photo&nbsp;-&nbsp;start--&gt;.*?)&lt;!--Text&nbsp;-&nbsp;end--&gt;
extract_capture:&nbsp;title&nbsp;body
</pre>

<p>
日付を取得しようと頑張ったのですがどうしても出来なくてそのままにしてあります。誰か教えてください。
</p>

<p>
最近のウタダ日記は彼女の書いた<strong>"あじわいぶかい"</strong>イラストがアップされていて、なんかしょこたんぶろぐみたいになってますね。<br />
歌だけではなくて絵もうまかったのか。
</p>]]></description>
         <link>http://feeds.glassleaf.info/~r/Glassleaf-plagger/~3/http%3A%2F%2Fglassleaf.info%2Fblog%2Farchives%2F20070609150620.php</link>
         <guid isPermaLink="false">http://glassleaf.info/blog/archives/20070609150620.php</guid>
                  <category domain="http://www.sixapart.com/ns/types#category">PC・インターネット</category>
                  <category domain="http://www.sixapart.com/ns/types#category">Plagger</category>
        
                  <category domain="http://www.sixapart.com/ns/types#tag">EntryFullText</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">Plagger</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">宇多田ヒカル</category>
                  <category domain="http://www.sixapart.com/ns/types#tag">野良EFT</category>
        
         <pubDate>Sat, 09 Jun 2007 15:06:20 +0900</pubDate>
      <feedburner:origLink>http://glassleaf.info/blog/archives/20070609150620.php</feedburner:origLink></item>
      
   </channel>
</rss>
