
AIで古文書を読む 埋もれた情報を発掘
10/18(金) 11:56配信産経新聞
AIによる文字認識のイメージ
人工知能(AI)の技術を使って古文書などに書かれた難読の「くずし字」を解読する試みが、学術界で広がっている。AIが解読を支援したり、自動で漢字やひらがなに変換したりするシステムが開発され、これまで未解読のままだった膨大な歴史史料がより容易に解析できるように。専門家は「解読できないが故に眠ったままになっている情報が掘り起こされ、さまざまな研究の後押しにつながるのでは」と期待を寄せている。(桑村大)
■パズル感覚で解読
江戸時代以前に書かれた古典籍の多くは、漢字やひらがなを大きく崩した文字が多用されており、これがくずし字と呼ばれる。日本の歴史・文化研究では、これらを解読して現代の文字に書き改める翻刻作業が不可欠だが、くずし字を正確に読める専門家はわずかで、今までに翻刻された史料もごく一部に過ぎない。専門家が膨大な史料を手作業で書き起こすには時間もコストもかかり現実的ではない。
より容易な翻刻作業の実現を目指して着目されたのが、近年、画像分析の分野で飛躍的に発展しているAIの導入だった。
今年5月には、立命館大アート・リサーチセンター(ARC)と凸版印刷の研究チームが、AIの支援を受けながらくずし字を読み解くことができるシステムを開発したと発表した。
システムは、ARCがデジタルデータ化して一般公開している古典籍や浮世絵など計31万4千件の史料を対象とし、凸版印刷が保有するくずし字のデータ(約100万件)を史料内の文字と照合することで解読を支援する。
パソコンの画面上に表示した文書から読めない文字を選択すると、くずし字のデータの中から形が似ているものをAIが抽出。候補のひらがなや漢字を、合致する割合を示しながら高い順に表示する。ディープラーニング(深層学習)も取り入れており、読み解けなかった文字を入力することでシステムが学習し、精度が向上する。
4月から同大の授業に導入されており、学生からは「古文書の解読と聞くと地道な作業と思われがちだが、まるでパズルをしているかのように楽しみながらできる」と好評だ。現在は学生や教員のみが利用できるが、今後、一般公開も検討している。
ARC副センター長の赤間亮教授(文化情報学)は「AIの支援を受けることで、誰もがくずし字が使われている史料を解読できるようになる。これまで埋もれていた情報も明らかになるのでは」と期待を口にする。
■防災、自動認識…広がる活用法
AIの導入は、既存のくずし字解読システムにも広がりつつある。くずし字で書かれた歴史史料をインターネット上に公開し、市民と専門家が協力しながら翻刻するプロジェクト「みんなで翻刻」もその一つだ。
プロジェクトは、過去の災害について記された古文書から防災の手がかりを得ようと、国立歴史民俗博物館(千葉県佐倉市)と東京大、京都大が平成29年に開始。同年1月の公開以降、これまでに約5千人が参加し、東大地震研究所が所蔵する約500点の解読を、当初の予想をはるかに上回る2年余りで終えるなど、大きな成果を上げている。
プロジェクトに携わる同博物館の橋本雄太助教(人文情報学)は「翻刻が必要な史料は膨大にあり、研究者だけでは限界があった。AIを導入することで参加者の裾野を広げ、一緒に新しい知見を得たい」と話している。
くずし字を自動で認識して翻刻する技術の開発も進んでいる。情報・システム研究機構人文学オープンデータ共同利用センターが開発した「KuroNet(クロネット)」は、AIが文書中のくずし字を自動で認識し活字に置き換えるシステム。今年中の公開を目指しており、北本朝展・同センター長は「さまざまな古典籍の翻刻が進み、研究の後押しになれば」と話している。
【プロフィル】桑村大(くわむら・だい)
平成29年入社。初任地の京都総局で大学を担当している。大学時代は工学部で主に光学デバイスを研究し、古文書解読などの人文学研究とは対極に位置していた。最新技術を用いて歴史をひらく試みにロマンを感じつつ、いつかは私の取材ノートに書き殴られた“くずし字”も解読できるような技術が開発されることをひそかに期待している。
なんでも、タイ人が考えたそうです。
専門家が1ページ読むのに10分かかるところを瞬時に読解するそうです。
すごいな。
Posted at 2019/10/20 09:09:36 | |
トラックバック(0) |
今日の飲み物 | ニュース