教育分野でも進むAI活用

漢字を用いない欧米などでは手書き認識の困難は漢字国よりかなり低い。基本的に英数字を認識できればよいからだ。しかし、理系学科などでは記号を用いた回答も多い。また、米国ではエッセイの採点が教師にとって大きな負担になっている。特にこうした問題に重点を置いて海外教育分野でのAI活用事例、今回は自動採点について紹介する。

回答をカテゴライズして採点するGradescope

Gradescopeは、カリフォルニア大学バークレー校ピーター・アビール（Pieter Abbeel）准教授（開発当事）や大学院生らの起こした企業で開発された自動採点システムだ。同大学内の理系学科や現時点で500以上の学校で使用されているという。

Gradescopeの自動採点システムは、オンラインでの利用が可能で、ペーパーテストにも対応している。ペーパーテストは受験者が紙と鉛筆でテストに回答するものだが、その場合、答案をスキャンして読み込み（例えば、宿題の場合は学生にスマホで写真を撮らせてもよい）、文字認識した上で回答をカテゴライズする。

Gradescopeは、学生の答える誤答にはいくつかパターンがあるという考えが基本になっているようだ。

例えば、Gradescopeのホームページで紹介されている例は、xの不定積分の解を問う問題になっている。正解が

(1/2) x2 + C

になる問題だ。ここでCは定数。

これに対する学生の回答パターンはいろいろあり、

(1/2) x2

だけのもの（つまり、定数Cが抜けている）や

だけのもの（つまり、係数1/2が抜けている）等がある。

Gradescopeでは、カテゴライズされた回答が教師に示される。つまり、あるグループは

(1/2) x2 + C

と回答し、別のグループは

(1/2) x2

で、さらに別のグループは

と答えていることが示される。

単純に正解・不正解にするのであれば話は簡単だが、教師としては不正解でも (1/2) x2には部分点をやりたいだろう。同じ不正解でも、x2よりも(1/2) x2の方が積分の理解度が高いからだ。

また、(1/2) x2の回答には「定数Cが抜けているよ」というコメントを、x2には「定数Cが抜けているよ」に加え「係数1/2が抜けているよ」というコメントも付け加えたい。

Gradescopeでは同じ回答カテゴリーの回答には一律で同じ採点とコメントができるので何十枚もの採点を数枚分の労力で済ませることができる。それだけでなく、部分点の付与とコメント付けを統一的に行うことができる。これによって、ある生徒には部分点１点を与えたのに同じ回答の他の生徒では部分点0.5点を与えるというような不公平も防げるし、生徒としても自分の間違ったポイントがどこになるのか明確にわかるというわけだ。

採点結果はグラフで示されるので、得点分布が極端に偏った結果になった場合などでは部分点の付け方を変えることで結果の調整を取ることも可能だ。

もちろん、Gradescopeのメリットは、回答が少数の誤答にカテゴライズできる場合に生きるわけで、全員が全くバラバラの回答をする場合には難しい。もっとも、現実には理系科目では珍回答は稀で、似たような誤答がまとまって出てくるのは統計的に認められるはずだ。

上記の例にあるように、Gradescopeは完全に自動採点するシステムではなく、教師が典型的な回答について採点すれば、それが同じカテゴリーの回答にも採点が反映される採点効率化システムだ。もっとも、小テストや宿題の問題等は繰り返し同じ問題が出されるから、実質的にほぼ完全な自動採点システムになり得る。

Gradescope の例はnvidia のブログでGPU駆動のAIアプローチの一例として紹介されている。そして、数式だけでなく、化学や工学の分野での複雑な記号・図形の採点にも、手書き認識のアプローチを応用するという。このブログは2016年9月のものなので、現状では、文字認識機能の向上とともに、AIの深層学習を回答群のカテゴライズに適用するというアプローチも進んでいるであろう。

NISSEN DIGITAL HUB

教育業界はAIによって教師が必要なくなる？【使用事例紹介】

https://nissenad-digitalhub.com/articles/ai-for-education/

AI（人工知能）を学校教育の現場に導入する動きがじわりと広がっている。学校教育の専門家も「教育の多くはAIに置き換えることができる」といっている。しかし教育といえば、知識がある人が知識がない人に知識を授ける極めて人間的な活動だ。そして知識がない人が知...

TOEICの元締めETSが取り組むエッセイの自動採点

米国における学校教育の特徴としてエッセイが重視されており、これは小学校以降の教育に一貫したものである。エッセイは日本では「随筆」なので、筆のおもむくまま自由に書く文章のように受け取られがちだが、米国のエッセイの目的はpersuasiveな、つまり他人に対して説得力のある文章を書くことである。

エッセイは小学校の３～４年生くらいから本格的に教えられる。もちろん、単語力や文法の正確さも問題にはなるが、漫然と書かされる日本の「作文」とは異なり、パラグラフ・ライティングが基本になっている。

典型的なものがFive-Paragraph Essayで、導入、３つのボディ・パラグラフ、結論の５つのパラグラフで構成するやり方である。

米国の学校では上述のエッセイの採点が教師にとって大きな負担になっている。そこで、ETSではe-raterという自動採点エンジンを開発し、これを応用したサービスを提供している。

なお、ETS (Educational Testing Service) は日本でもTOEICやTOEFLの実施などで馴染みのある世界的な組織だが、ETS が実施している試験にはTOEIC、TOEFLの他に、米国内で行われる様々なアチーブメントテスト等があり、ETSにとってテスト、特にエッセイにおける自動採点は非常に重要な課題だと言える。

e-raterは、Criterion Online Writing Evaluation ServiceというETSのサービスで提供されるもので、生徒のライティング力の向上や、教師のエッセイの採点を支援するものである。

具体的には文法や用法、構成などを採点するが、このサービスは20年以上にわたる自然言語処理の分野で開発されたもので、

・人間の専門家が採点したときの結果と矛盾しない

・自動採点の仕組みが理解可能で実質的に意味のあるものである

・自動採点は公平なものである

などが重要なポイントとされている。

NISSEN DIGITAL HUB