megamouthの葬列

長い旅路の終わり

シフトJISを使い続ける上場企業をまとめてみた

srad.jp

こういうニュースがあった。世界のWebサイトの90%がutf-8を使用している、という。

昔、シフトJISエンコードされたPHPファイルを編集させられた時、「表示」が表示できず(文字通りの意味である)バイナリリテラルを書いていたことを思い出す。
文字コード断絶の歴史を乗り越え、世界はようやくUnicodeの元に集結したのである。

日本の上場企業のcharset指定状況

さて、美しいニッポンである我が国はどうであろうか、

www.pathfindergate.com

私は上記のサイトより早速日本の上場企業のHPのリストをダウンロードさせていただくと、さらっとクローラーを書いてHTTPヘッダのcharsetとmetaタグのcharset、ついでにDOCTYPE宣言を集計することにした。

というのは実は嘘で、去年の12月頃にクローラーは出来上がっていたのだ。この記事が出る前にとっくに私は大体の結果を知っていたことになる。
そして集計結果を見た私は驚愕した!

というのも嘘で、「まあそんなもんだろうなあ」というのが実感であった。
大したおもしろい論説も思いつかず、無理やり推論をくっつけて時評っぽく書くことも可能だったが、なんかアホらしいので放置していたのが正直なところだ。

しかしながらこれは、中年Web屋の意見なので、現在SublimeTextでコーディングしている若人なら多少の感慨があるかもしれない。
何しろシフトJISが追認される形で標準化されたのが1997年だ。
自分が生まれるよりはるか以前から使われていた文字コ―ドを今だにWebで使用している上場企業が、果たしてどれほどあるだろうか?と言われれば少しは興味が沸かないだろうか?沸かないかー

結果発表

もったいぶらずに結果をお見せしよう。結果は以下のGoogleスプレッドシートにまとめた。

docs.google.com

データは2015年の上場企業の一覧とHP URLによっている。2年の歳月のうちに経営統合した企業や、UserAgent偽装したLWPでどうしてもクロールできない企業などは除いて、全部で3592社ある。

文字コードの使用率

f:id:megamouth:20171020010824p:plain

シフトJISの使用率は15%であった。うん。個人的には意外と減ったなあ、と思うが、皆さんはいかがだろうか?

DOCTYPE宣言


f:id:megamouth:20171020010827p:plain

HTML5の燦然たる証<!DOCTYPE html>を使用するサイトは52.4%であった。その他は暗いHTML4Trasitional//ENの帳にいる。別にそれが悪いことだ、とまで言う気はない。
ちなみに"//EN"って何のことなんでしょうね。(追記:DTDの記述言語のことだそうです。教えてくれた人ありがとう!)


どういうサイトがシフトJISを使っているか

スプレッドシート内の次のシートに各企業別の調査結果が書いてある。
シフトJISの企業を少し見繕ってみよう。

日清オイリオ東証一部)

www.nisshin-oillio.com

落ち着いているが、まだまだ今風のデザインである。でもシフトJIS。ソースを覗くと、body内に埋め込まれたcssが不穏な香りを醸し出すが、CMSを使っていたりして、ヘッダを何らかの理由で固定されているページではよくあることである。

NTTドコモ東証一部)

www.nttdocomo.co.jp

最先端IT企業であるNTTドコモシフトJISユーザーである。i-mode携帯は出荷が終わったが、i-mode自体はまだあるので(多分)その対策かもしれない。i-modeユーザーがこのトップページを見ることがあるのかは甚だ疑問だが。

マキタ(東証一部,名証一部)

www.makita.co.jp

現場で使えるBluetoothスピーカーなどで有名なマキタもシフトJIS質実剛健というか、なんとなくブランドイメージと合致していて好感が持てる。

日本ファルコム東証マザーズ

falcom_ファルコムホームページ

名作ゲームを数々生み出してきたファルコムシフトJIS。理由は見当もつかない。

楽天東証一部)

www.rakuten.co.jp

シフトJISではないが、さらに少数派となったeuc-jpである。社内公用語は英語だけど、英語はeuc-jpで記述できるからね。この際us-asciiにしてもいいかもしれないね。


飽きたので総論

詳しくはスプレッドシートのほうを思う存分見ていただければいいと思う。
たまに、変な文字コードなのに見に行くと、ちゃんとutf-8だったりするが、それはリダイレクトを検知できなかったことによるものだったりする。(HTTPヘッダではなくMETAタグやJSでやられたら対応不可能なのである)
そのへんはノークレームということで。

全般的に新しい企業やIT企業はutf-8html5の組み合わせが多かった。というより現代においてはそうしない理由は特にない。
それでもシフトJISやHTML4が幅を利かせているのは、変更して何かが起こったら怖いから、とか、検証に時間とお金をかけられない、ということなのだろう。

ここで、日本企業のIT投資の弱さや保守的な性格を論じてもいいのだが、シフトJISだから、日本はダメとか言うのも根拠としてはいかにも薄弱なので、まあ日本ってそんなもんっすよ。
という感想を述べて本稿を終えたいと思う。ではまた。


プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)

プログラマのための文字コード技術入門 (WEB+DB PRESS plus) (WEB+DB PRESS plusシリーズ)