大学入試を中心とした情報分野の学力評価手法の検討シンポジウム2023

基調講演 CBTが変える大学入試

大学入試センター 研究開発部 石岡恒憲先生

本日は、こちらの5つの話題についてお話しします。

 

最初は、大規模テストを取り巻く昨今の状況です。現在、従来の紙と鉛筆のテスト(PBT:Paper Based Test)からコンピュータを使ったCBT(Computer Based Test)に移行しつつありますが、実際どのようなテストがCBT化されたのか、将来どのようにCBT化が進むのか、ということを整理します。

 

2番目は、大学入学共通テスト(以下、共通テスト)におけるCBT活用に関する提言について。国のいくつかの機関が、CBT活用に関する提言を行っています。それらを整理してご紹介します。

 

3番目は私達大学入試センターにおける調査研究についてです。大学入試センターでは、これらの提言を受けてCBT利用についての調査研究を行い、現在3つの報告書を出しています。ここでは、その内容の簡単な紹介をします。

 


4番目の「大学入試センターシンポジウム」では、11月12日 (日)に開催する大学入試センター主催の、CBTについてのシンポジウムの紹介をします。

 

最後に、これは私自身の研究なのですが、AI採点についてのお話です。CBTの次は、当然自動採点というフェーズになりますが、その実施上の課題についてご紹介します。

 

大規模テストを取り巻く昨今の状況~全国学力・学習状況調査、司法試験もCBTへ

 

こちらが大規模テストを取り巻く昨今の状況です。左がPBT、紙と鉛筆によるテストです。 

 

  

大規模試験では、大学入学共通テスト、医師国家試験、文科省が行っている全国学力・学習状況調査、その他、各都道府県教育委員会で行っている学力調査や司法試験があります。

 

一方右側が、既にCBTが使われている、あるいは使うことが決まっている試験です。

 

1つは医療系大学間共用試験、通称CATOと呼ばれているものです。これは医学部や歯学部の学生が臨床実習の前に知識・態度・技能を評価する共通試験で、この試験に合格しないと臨床実習に進めない、という試験です。

 

2番目の英検S-CBTは、従来型の英検と同じ出題形式を取りつつ、スピーキングテストを吹込み式として、1日でスピーキング、リスニング、リーディング、ライティングの4技能を測ることができるものです。

 

3つ目のTOEFLは、国際標準の英語能力測定試験です。日本の学生が海外の大学に進学する際には、この試験を受けることが必要になります。これらは既にCBTで実施されています。

 

そして、この下にスペースが空いていますが、左側のPBTのうち下の3つが近い将来CBTに移行する予定です。

 

全国学力・学習状況調査は、2025年度から実施することが決まっています。各教育委員会による学力調査については、埼玉県が実施する学力調査が先行して、2024年度の全面移行に向け、36市町村と県立の中学校でCBT先行実施しました。また、司法試験については2026年度からパソコン受験になる方針を政府が打ち出しています。

 

 

共通テストにおけるCBT活用に関する提言~入試のあり方自体の改革も視野に入れていた

 

大学入試センターが行っている共通テスト(ここに挙げた提言が出たときには「達成度テスト」と呼んでおりましたが)についても、CBT活用に関する提言が行われています。

 

最初が、平成25年の教育再生実行会議の第4次提言です。ここでは、「達成度テスト(発展レベル)(仮称)について、将来的には、試験問題データを蓄積してCBT方式で実施することも検討」といった提言が入っています。

 

この当時は、達成度テストを「基礎編」と「発展編」の2段階で行うという話があり、発展編にCBTを導入する、という提言が出たのですね。個人的には、CBTに向いているのはむしろ基礎編の方ではないかと思いますが、こういった提言が出されました。

 

翌年の平成26年には、中央教育審議会の答申「新しい時代にふさわしい高大接続の実現に向けた高等学校教育、大学教育、大学入学者選抜の一体的改革について」の中で、共通テストについて「CBT方式での実施を前提に、出題・解答方式の開発や実施回数の検討を行う」という文言が出てきました。

 

この「実施回数の検討を行う」というところがポイントです。要するに、現在のように1回だけではなくて、複数回実施を念頭に、入試のあり方自体を改革するという提言が出されたわけです。

 

当時は、令和7年度入試、つまり学習指導要領が変わるタイミングに合わせてCBT化してはどうかという話が考えられていました。

 

 

提言はさらに続きます。

 

「未来投資戦略2018」には、「大学入学共通テストにおいて、国語、数学、英語のような基礎的な科目として必修必履修科目『情報Ⅰ』(コンピュータの仕組み、プログラミング等)を追加するとともに、文系も含めて全ての大学生が一般教養として数理・データサイエンスを履修できるよう、標準的なカリキュラムや教材の作成・普及を進める」ということが盛り込まれました。

 

また、「コンピュータ上で利用する試験(CBT)などの試験の実施方法等についての検討を進める」ということも書かれています。内容は、プログラミングや、データサイエンスの基礎となる「情報Ⅰ」の特性を踏まえた提言になっています。

 

 

大学入試センターにおける調査研究~単なる学力試験調査等をはるかに超える実施水準が必要

 

 大学入試センターでも、これらの提言を踏まえ、またこれらと並行して、共通テストにCBTが実装可能かということについて、いわゆるフィジビリティ調査を行いました。

 

平成23年には、教育工学やテスト理論の専門家によってCBTに関する調査研究を実施し、平成28年には文科省の補助事業として、より多様な専門家の協力を得ながら、令和7年度試験からのCBTを利用した「情報Ⅰ」の出題についての検討を行いました。

 

そこで3つの報告書を出しました。1つは令和4年の「CBTでの『情報Ⅰ』の出題に関する調査研究について(報告)」です。こちらは、プログラム等の出題を実現することを念頭に書かれています。

 

2つ目は、令和3年の「大規模入学者選抜におけるCBTの活用の可能性について(報告)」です。こちらは、IRT(項目反応理論)を前提とした問題作成・管理の方法に関するもので、これによって複数回実施が可能になります。

 

3つ目は、「個別大学の入学者選抜におけるCBTの活用事例集」ということで、既に入試でCBTを採用している大学が、CBTをどのように使っているのか、という事例集を作りました。

 

これら3つの報告書については、大学入試センターのホームページ(※1)からダウンロードすることができます。

 

※1 https://www.dnc.ac.jp/research/cbt/

 

 

ただ、報告書は出していますが、共通テストでのCBTの活用ということについては、「?」で、実際、令和7年度の実施は正式に見送られることになりました。

 

その理由としては、こちらのスライドにあるように、大学入学者選抜、とりわけ共通テストにおいては、単なる学力試験調査等をはるかに超える実施水準が求められる、ということがあります。

 

つまり、CBTで実施することのメリットはそれなりにいろいろありますが、現行の共通テストをCBTでIRTに基づいて行うためには、様々な課題を高いレベルで克服する必要がある、ということです。

 

具体的には3つの課題が挙げられます。

 

1つは、全国的に均質で質の高い受験環境(パソコンやネットワーク等)の確保が必要で、これがなかなか難しいだろうということ。

 

2つ目は、トラブルが生じた場合の対応体制の構築が必要になることです。機械ですから、当然一定の確率で故障することが予想されます。それにすばやく対応する仕組み作りは、やはり難しいでしょう。

 

 

大学入試センターのCBTシンポジウム~CBTのあり方に関する社会全体の理解を醸成するために

 

3つ目が、CBTという新しい試験の在り方に関して、受験者や保護者を含む社会全体の理解が必要だろう、ということです。これはかなり難しく、周到な準備が必要だろう、ということで、この3番目の課題に対応するために、大学入試センターでは、11月12日に「CBTの世界へようこそ」というタイトルのシンポジウムを行います。

 

このシンポジウムの副題は、「CBTシステムTAOと試験環境作りのいろは」とあります。大学のアドミッションオフィスのリーダーの方々をメインターゲットとして、初心者の方にもわかり易く、社会の理解を得るためにお話ししたいと考えています。

 

※クリックすると拡大します。

 

シンポジウムの内容です。当センターの若手の研究者である宮澤からは、国際標準QTIとプラットフォームTAOのご紹介をします。

 

ここでは、TAOを活用するメリットや、実践についてお話しします。CBTで重要な要件はいくつかありますが、その中でも大きいのが、試験問題の互換性の問題です。

 

CBTをQTIという規格で作れば、用意された試験問題を、QTI準拠の別のシステムでも問題なく使えるということです。昔、ビデオテープの規格で、VHSのテープであれば松下(今のパナソニックですね)でも、三菱でもどこのメーカーのレコーダーでも同じように使えましたが、あれと同じようなこととご理解ください。

 

TAOというのは、このQTI準拠する非常によくできたシステムです。CBTシステムが備えるべき要件というのは、単に試験を実施して採点できるだけでなく、問題の配信の仕方やネットワークの要件、解答にかかる時間などログの取得、その他さまざまな観点の統計やセキュリティなど、とにかくたくさんあります。

 

これを全部自前でやるのはとても大変ですが、TAOはフリーのソフトで、標準的な試験問題の仕組みが搭載されています。

 

センターとしても、こういったことを啓蒙していきたいですし、またIRT(項目反応理論)に基づいた同質性のある試験を複数回実施するための仕掛け作りの基礎についてもご紹介したいと考えています。

 

 

寺尾からは、端末管理や試験環境の配布、ネットワークなど、CBTの実施面に対するお話をします。

 

CBTでは、当然受験者それぞれが端末で解答しますが、その充電をどうするのか。今高校などでは、1人1台端末を活用していますが、それを同時に充電するだけでも大変ですよね。同時に実施するとすれば、50万人分の端末の充電のための電源をどうするのか、という問題があります。

 

あるいは、ブラウザを使ってカンニングができないようにするために、ロックダウンブラウザという、外部ネットワークに繋がらない仕組みの環境作りをする必要があります。

 

また、学内ネットワークを作って問題を配信することになれば、その場合のネットワークの作り方として、LTE-USBドングルの使用の仕方などといったことについて、ご説明したいと思っています。

 

大学入試センターが開発した「情報I」の出題のためのモジュール

 

TAOをはじめとして、Linux、Pythonなど、今のコンピュータの世界は、優れたものはフリーのものが多いですよね。フリーだからこそ、皆が設計に協力して、バグがつぶされて安定した良いものができる。その安定したシステムの上に、パッケージとかライブラリといった、各自が必要なものを追加インストールして使うわけです。

 

我々はこのTAOの上にPCIモジュールというパッケージを作って、搭載して使おうとしています。

 

これまでに開発したモジュールが3つあります。

 

1つは、Code Block Programming(CBP)、ブロックプログラミングと呼ばれるもので、短冊型のコードを用いてプログラミング問題を出題するものです。

 

2つ目がScatter Plot Interaction(SPI)で、これは散布図を用いたデータ活用の問題の出題を可能にするモジュールです。

 

3つ目がPivot Table Interaction(PTI)で、これはクロス集計を用いたデータ活用問題の質題を可能にするものです。

 

これらは教科「情報」を出題する上で必要となると考えられるものを3つ作ってあるということです。

 

 

ここでは、CBPについて、簡単にご説明します。

 

CBPは、短冊型の選択肢をドラッグ&ドロップで短冊型のコードを配置していきます。この短冊はJavaScriptに対応した疑似コードになっていますが、これを組み合わせてプログラムを作っていきます。

 

画面の下のところに緑色の実行ボタンがあって、これを押すとプログラムがカタカタと動く。やってみて「違うな」ということであれば、短冊を入れ替えて直すことができ、実際にプログラムを書いて動かす試験ができるようになっています。

 

※クリックすると拡大します。

 

この短冊型のコードは、変数の定義や演算、複数行のコードを書く単純処理、whileとforの繰り返し、ifとif-elseの条件分岐、出力のprintの6つのパーツがあり、これらを組み合わせてプログラミングの問題を解くことになっています。

 

※クリックすると拡大します。

 

さらに、もう少し問題のバリエーションを広げるために受験者が入力するタイプの欄もあります。

 

受験者が直接テキストを入力するテキストボックス、いくつかの項目の中から選択するドロップボタン、ドラッグ&ドロップがやりやすいように空白を追加するような短冊型の空白欄などです。

 

このような短冊型のコードを使うことで、プログラミング問題をCBTで出題することができるような仕組みを作っています。

 

これ以外のモジュールについては、先ほどご紹介したシンポジウムでご紹介します。

 

※クリックすると拡大します。

 

AIによる自動採点の可能性と課題

 

最後の話題は、AIによる自動採点です。CBTの次には、当然「採点を自動で行いたい」となるわけですね。これは、私と東京農工大の中川正樹先生の研究室で行った研究です。

 

中川先生の文字認識の技術は、おそらく日本のトップクラスで、皆さんが使われているタブレットの文字認識の機能は、この中川先生の研究室の技術がそのまま実装されています。

 

このシステムに実際の画像文字の答案を読み込ませて、それを文字認識にかけて、リカレントニューラルネットワークによる深層学習(ディープラーニング)によって採点を行いました。

 

この研究を行ったのは平成29年と30年です。当時大学入試センターでは、共通テストに記述式の問題を導入する、という話がありました(結局いろいろいろいろあって実施しないことになりましたが)。そのための試行調査を行ったときのデータですから、大学入試レベルの試験問題で行ったものです。そこで、人間と機械とで96%の一致率を得た、という結果となりました。

 

これは、最新のディープラーニングによる採点で、どの程度の精度が出るのか、というメルクマールを示した研究だと思っていますが、日経新聞でも大きく取り上げられました。

 

研究レベルとしてはそこそこの精度でしたが、実際の公的試験で使うということになるとさらにハードルが高くなるので、それなりの問題があるということになります。

 

 

一つは、解答の入力についてです。

 

私のような年輩の人間にとっては、一番入力しやすいのはキーボード入力だと思いますが、最近はスマホのフリック入力ならうまくできるけれど、キーボード入力ができない(慣れていない)学生も多いわけで、そういう人にとっては難しいだろう、ということになります。

 

また、国語を横書きで回答することに対して、その妥当性や不自然さということもあります。

 

さらに、一斉試験で行うとすれば、当然機器の台数も限られますし、それでなければ問題漏洩の懸念もあります。

 

 

では、キーボード入力ではなく、タブレットやIoT paperによる手書きによる電子入力の場合はどうなのか、ということになりますと、例えばIoT paperであれば1台1万円以下のものもあり、試験で使えないこともない、という価格です。

 

ただ、現在の文字認識率は必ずしも高くありません。先ほどおよそ96%というお話しました。96%ならいいじゃないか、と思われるかもしれませんが、100字の回答で4文字間違いがあるということです。これは試験の採点にするには、ちょっと難があります。

 

例えば400字の原稿用紙で16字間違いがあるわけですから、そのレベルの答案を読むのは大変だ、ということは皆さんの直感としておわかりになると思います。

 

また、実際に手書き文字を読み込ませてみると、数字への誤認識、要するに文字を数字として判読してしまう例が結構気になります。

 

例えば、国語の問題は縦書きで書くわけですが、縦書きの音引き(いわゆる長音)を数字の「1」、ひらがなの「る」を数字の「3」に誤認識してしまう例が、それなりにありました。これは日本語の場合、文字認識をかけるときに学習させるデータ辞書をWikipediaで取ることが多いのですが、Wikipediaは思いのほか数字が多いため、確率的にはこの程度になってしまうのです。

 

さらに、数学の数式の文字認識は格段に落ちて50%未満で、入試で使うには難しいレベルです。

 

 

IoT paperやタブレットではなく、紙に記入してスキャンして文字認識するという方法もありますが、試行調査の例では、消しゴムによる消し跡の汚れを誤認識してしまう、ということもありました。

 

これは、30字以上(多い場合60~70字の問題もあるかもしれませんが)の文字解答を、消しゴムなしに一発で書ける人はほとんどいないわけです。推敲するために、必ず消して書き直す、それが誤認識を招いてしまうのです。

 

また、タブレットやIoT paperであろうと、紙であろうと、文字認識共通の問題として、試験では字が丁寧に書かれないということがあります。時間が限られていますから、丁寧に書く人はなかなかいません。

 

もう一つ、これは意外に言われていないことですが、間違った文字を逆に正しく変換してしまうということがあります。「完壁」と書いても「完璧」、「酒落」と書いても「洒落」、「三味」と書いても「三昧」と勝手に直してしまう。ビジネス用のアプリケーションであれば全く問題ありませんが、試験においては、間違ったものは間違ったものと認識されなければいけません。これは、機械学習ではなかなか難しい課題になります。

 

 

機械学習の採点のためには、学習用の採点データが膨大に必要

 

また、総合型選抜などでは、オープンエンド、つまり正解がなくて何を書いてもよいというエッセイ形式の問題を使うこともあります。

 

アメリカでは、エッセイ問題には制限時間はありますが、字数制限はないので、書ける人はいくらでも書いてよいという形式で行います。このため、書いた文字数が採点に大きく寄与することになります。

 

これが日本ではどうなのか、ということになります。試験というのは、突き詰めるとその国の文化ですので、その辺りについては議論の余地のある話だろうなと思います。

 

また、短答記述と言われる、エッセイとは違ってある程度の文字数は書くけれども、一定の正解があるようなタイプの問題は、当然字数が制限されます。ただ、例えば80~120字で解答するというのは、表現のバリエーションが非常にたくさんあります。

 

それを機械学習で採点するためには、ルール学習のための採点データが膨大に必要になります。

 

我々の6万人規模の試行調査のデータでいろいろ調べたところ、解答数が2000~3000では全く足りず、問題のタイプによっては数万でもきちんと収束しない。つまり全部の回答パターンを尽くせない、ということがわかり、これはなかなか難しいということになります。

 

 

QTI準拠のシステムで実証を進めていく

 

ここまでいろいろお話ししてきましたが、最後に申し上げたいのは、CBTは今後QTI準拠が業界標準の統一規格になると思います。それをサポートしているシステムで、現在良いスペックにあるものは、当面TAO一択ということになるだろう、と思います。特定のシステムを指定するのはよくないかもしれませんが、大事なのはQTI準拠であることです。

 

文科省のCBTシステムのMEXCBTもTAO準拠ですし、文科省が現在行っている大学入学者選抜改革推進委託事業で、個別大学の入学者選抜機能におけるCBTの活用を実証(こちらは電気通信大学が受託しています)もTAOをベースで作られています。今後もCBTの流れは、こういったものが基本になるだろう、ということです。

 

あと、今日ご紹介した3つのPCIモジュールは、GitHub上で公開されています(※2)。

 

GitHubのURLの最後のrdはResearch Division、我々の研究開発部です。NCUCCは、大学入試センターの英語の正式名称National Center for University Entrance Examinationの略称です。

 

 ※2 https://github.com/rdncuee

 

また、大学入試センターのCBTに関する報告書につきましては、センターのホームページ(※1:再掲)に掲載しています。こちらも必要に応じてご利用いただければ幸いです。

 

※1 https://www.dnc.ac.jp/research/cbt/

 

大学入試を中心とした情報分野の学力評価手法の検討シンポジウム2023 講演より