はてなの最近の事件について書こうとしたときにふと思ったんだけど、この文中の「はてな」を AI は正しく固有名詞として認識できるのだろうか。AI に限らなくても、たとえば外国語に翻訳するときなんかはどうだろう。まあできそうではあるけど、100% 確実にはできないだろう。

念のため説明しておくと、日本の京都に「株式会社はてな」という企業があって、最近どえらい不祥事をやらかしました。

これが英語だと固有名詞は大文字で始める慣行があるので日本語の場合と比べて高い精度で固有名詞と認識できると考えられます。単語と単語の間に空白文字を置くことも認識精度に寄与するでしょう。

HTML に固有名詞をあらわす要素があるべきでは? <propernoun> みたいな。ざっとリストをあたってみてもそれに使えそうな既存の要素はなさげ。<dfn> ならいけるか? ちょっと違うかな。

ちなみに <bdo> という要素があってテキストの書字方向を上書きできる。つまりどういうことかというと「吾輩は<bdo dir="rtl">猫である</bdo>」が「吾輩はるあで猫」とブラウザ上にレンダリングされるということ。

これと同等の機能をもたらす文字が Unicode に定義されていて、U+202E (RIGHT-TO-LEFT OVERRIDE) という文字を置くと後続の文字が強制的に RTL 化される。セキュリティ上の理由からこれらを使えないようにしているシステムが多いけど、昔は Twitter なんかでも文字参照の &#x202E; を挿入することで強制 RTL 化して遊んだりできたものです。

現行の WordPress でも Custom HTML ブロックを使えばどちらも可能ですね。

実に面白い。

話を戻すと、U+202E の要領で「固有名詞の始端」「固有名詞の終端」みたいな文字を Unicode に定義するというのもあながちおかしな考えではないのではないかと。


Comments

Leave a comment