処理したかったJR北海道のサイトですが、どうしても文字化けしてます。
Shift_JISは非対応なのかなぁ。
いろいろ調べてみましたが、確かに以前は文字コードの問題があったらしく、プロキシで漢字コードを変換してPipesに渡すという手法がいくつかありました。
しかし、現在は停止していたり、RSSのフィード専用だったりと使えません。
他のサイトも同じなのかなと、違うサイトをPipesに渡してみると文字化けしません。
あれ?と思って漢字コードを調べてみると、Shift_JISです。あれれ?
漢字コードの問題じゃないなぁということで再度調査しました。
とりあえず該当のページを保存して自分のWebサーバに複製して実験です。
いろいろ切ったり貼ったりしながら原因ぽいものを見つけました。
JR北海道のページのヘッダ部分にある以下の部分が問題の様子です。
<META http-equiv=Content-Type content="text/html; charset=Shift_JIS">
<META http-equiv=Content-Type content="text/css">
2行目のタグを Content-Style-Type とするのが正解のようですが。
結局Content-Typeの設定が上書きされて、charsetの設定が無効になってるとか?
でも、こうなってたらこちらでは手が出せないような気がする。
JR北海道さん、直してくれないよな。ブラウザでは問題無く見えるし。