モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。

TAG LIST
CG機械学習CGへの扉ディープラーニング安藤幸央GAN月刊エンタメAIニュース河合律子OpenAI音楽ニューラルネットワーク強化学習三宅陽一郎NVIDIA吉本幸記人工知能学会FacebookQA敵対的生成ネットワークスクウェア・エニックス森川幸人モリカトロンAIラボインタビュー自然言語処理ルールベースDeepMindキャラクターAIシナリオGoogleGPT-3大内孝子AIと倫理映画NFTグーグルStyleGAN自動生成倫理デバッグゲームプレイAIメタAICEDEC2019アートプロシージャルSIGGRAPH遺伝的アルゴリズムDALL-E深層学習マイクロソフトビヘイビア・ツリーCEDEC2021CEDEC2020ゲームAI不完全情報ゲームVRナビゲーションAI畳み込みニューラルネットワークCLIPロボットDALL-E2ディープフェイクGDC 2021JSAI2022VFXメタバースGDC 2019マルチエージェントボードゲームNPC画像生成テキスト画像生成懐ゲーから辿るゲームAI技術史CNNデジタルツインテストプレイモリカトロンUnityAIアート小説ファッション鴫原盛之HTN階層型タスクネットワークJSAI2020TensorFlowBERTAdobeMicrosoftイベントレポート対話型エージェントCEDEC2022著作権水野勇太アニメーションガイスターStyleGAN2toioソニーJSAI2021スポーツ研究シムピープルマンガ汎用人工知能マーケティングGDC SummerインタビューバーチャルヒューマンブロックチェーンMidjourneyアストロノーカNVIDIA OmniverseeスポーツAmazonロボティクスeSportsDQNBLUE PROTOCOLシーマンMinecraftアバターUbisoftGenvid TechnologiesAlphaZeroTransformerGPT-2カメラ環世界中島秀之哲学理化学研究所DARPAドローンシムシティバイアスMCS-AI動的連携モデルTEZUKA2020AI美空ひばり手塚治虫スパーシャルAIElectronic ArtsメタデータLEFT 4 DEAD通しプレイOpenAI Five本間翔太CMピクサープラチナエッグイーサリアム作曲ボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析Microsoft AzureキャリアナラティブアーケードゲームOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事サイバーエージェント田邊雅彦トレーディングカードトレカ音声認識PyTorchStable Diffusion眞鍋和子バンダイナムコスタジオaibo合成音声Meta齊藤陽介マインクラフトお知らせチャットボットサルでもわかる人工知能VAEOmniverseリップシンキングUbisoft La Forge自動運転車ワークショップメタ知識表現ウォッチドッグス レギオンIGDAどうぶつしょうぎEpic Gamesジェイ・コウガミ音楽ストリーミングMIT徳井直生マシンラーニング5GRival Peakクラウド対話エンジン斎藤由多加リトル・コンピュータ・ピープルコンピューティショナル・フォトグラフィーゴブレット・ゴブラーズ絵画AIりんなシミュレーション完全情報ゲーム坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識GTC2022StyleCLIPDeNA長谷洋平masumi toyota宮路洋一OpenSeaGDC 2022教育TextWorldSIGGRAPH ASIAMagentaSFELYZA PencilGTC2021CycleGANデータマイニングNetHackはこだて未来大学フェイクニュースエージェントRPGSIGGRAPH 2022AIボイスアクターNVIDIA CanvasImagenGPUALifeZork人工生命オルタナティヴ・マシンサウンドスケープASBS栗原聡モーションキャプチャーぱいどんテキスト生成ナビゲーションメッシュ松井俊浩バンダイナムコ研究所ELYZAフルコトELYZA DIGEST3D音声合成西成活裕Apex LegendsELIZA群衆マネジメントNinjaコンピュータRPGライブビジネスアップルタウン物語新型コロナKELDIC周済涛メロディ言語清田陽司ゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史タイムラプスEgo4DAI哲学マップバスキア星新一日経イノベーション・ラボStyleGAN-XL敵対的強化学習StyleGAN3階層型強化学習GOSU Data LabGANimatorWANNGOSU Voice AssistantVoLux-GAN竹内将SenpAI.GGProjected GANMobalyticsSelf-Distilled StyleGAN馬淵浩希Cygamesニューラルレンダリング岡島学AWS SagemakerPLATO映像セリア・ホデント形態素解析frame.ioUXAWS LambdaFoodly誤字検出森山和道認知科学中川友紀子ゲームデザインSentencePieceアールティLUMINOUS ENGINELuminous ProductionsBlenderBot 3パターン・ランゲージ竹村也哉Meta AIちょまどマーク・ザッカーバーグGOAPWACULAdobe MAX 2021自動翻訳MILE模倣学習AIライティングOmniverse AvatarAIのべりすとFPSNVIDIA RivaQuillBotマルコフ決定過程NVIDIA MegatronCopysmithNVIDIA MerlinJasperスタンフォード大学NVIDIA Metropolisパラメータ設計テニスバランス調整協調フィルタリング人狼知能テキサス大学AlphaDogfight TrialsAI Messenger VoicebotエージェントシミュレーションOpenAI CodexStarCraft IIHyperStyleMax CooperFuture of Life InstituteRendering with StyleメディアアートIntelDisney類家利直LAIKADisneyリサーチヴィトゲンシュタインRotomationGauGAN論理哲学論考GauGAN2京都芸術大学ドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021PromptBaseDota 2モンテカルロ木探索ディズニーリサーチMitsuba2バンダイナムコネクサスソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューGTC2020CG衣装mimicNVIDIA MAXINEVRファッションBaidu淡路滋ビデオ会議ArtflowERNIE-ViLGグリムノーツEponym古文書ゴティエ・ボエダ音声クローニング凸版印刷Gautier Boeda階層的クラスタリングGopherAI-OCR画像判定JuliusSIE鑑定ラベル付けTPRGOxia Palus大澤博隆バーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSFプロトタイピングクーガー田中章愛実況パワフルサッカー石井敦銭起揚NHC 2021桃太郎電鉄茂谷保伯池田利夫桃鉄GDMC新刊案内パワサカマーベル・シネマティック・ユニバースコナミデジタルエンタテインメント成沢理恵MITメディアラボMCU岩倉宏介アベンジャーズPPOマジック・リープDigital DomainMachine Learning Project CanvasMagic Leap OneMagendaMasquerade2.0国立情報学研究所ノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹サッカーモリカトロン開発者インタビュースパコン里井大輝Kaggle宮本茂則スーパーコンピュータバスケットボール山田暉松岡 聡Assassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0Sea of ThievesTSUBAME 2.0GEMS COMPANYmonoAI technologyLSTMABCIモリカトロンAIソリューション富岳初音ミクOculusコード生成AISociety 5.0転移学習テストAlphaCode夏の電脳甲子園Baldur's Gate 3CodeforcesCandy Crush Saga自己増強型AISIGGRAPH ASIA 2020COLMAPADOPデバッギングBigGANGANverse3DMaterialGANRNNグランツーリスモSPORTReBeLグランツーリスモ・ソフィーGTソフィーVolvoFIAグランツーリスモチャンピオンシップRival PrakDGX A100VTuberユービーアイソフトWebcam VTuber星新一賞北尾まどかHALO市場分析将棋メタルギアソリッドVフォートナイトFSMRobloxナップサック問題Live Nation汎用言語モデルWeb3.0AIOpsSpotifyスマートコントラクトReplica StudioAWSamuseChitrakarQosmo巡回セールスマン問題ジョルダン曲線メディアMuZero政治クラウドゲーミングがんばれ森川君2号和田洋一リアリティ番組Stadiaジョンソン裕子MILEsNightCafeインタラクティブ・ストリーミングLuis Ruizインタラクティブ・メディアポケモンCodexシーマン人工知能研究所東京工業大学Ludo博報堂ラップSIGGRAPH 2019ArtEmisZ世代AIラッパーシステムARrinnaGROVERプラスリンクス ~キミと繋がる想い~FAIRSTCチート検出Style Transfer ConversationオンラインカジノRCPアップルRealFlowRinna Character PlatformiPhoneデジタルヒューマンDeep FluidsSoul MachinesMeInGameAmeliaAIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクターBCIGateboxLearning from VideoANIMAK予期知能逢妻ヒカリセコムユクスキュルバーチャル警備システムカント損保ジャパン上原利之ドラゴンクエストエージェントアーキテクチャアッパーグラウンドPAIROCTOPATH TRAVELER西木康智OCTOPATH TRAVELER 大陸の覇者Siemensアルスエレクトロニカ2019品質保証StyleRigAutodesk逆転オセロニアBentley Systemsワールドシミュレーター奥村エルネスト純いただきストリートH100齋藤精一大森田不可止COBOL高橋智隆DGX H100ロボユニザナックDGX SuperPOD泉幸典仁井谷正充クラウドコンピューティングロボコレ2019Instant NeRFartonomousbitGANsぎゅわんぶらあ自己中心派Azure Machine Learning意思決定モデル脱出ゲームHybrid Reward Architectureコミュニティ管理ウロチョロスSuper PhoenixSNSProject Malmoオンラインゲーム気候変動Project PaidiaEarth-2Project Lookoutマックス・プランク気象研究所Watch Forビョルン・スティーブンスBing気象モデルLEFT ALIVE気象シミュレーション長谷川誠ジミ・ヘンドリックス環境問題Baby Xカート・コバーンエコロジーロバート・ダウニー・Jr.エイミー・ワインハウスSDGsYouTubeダフト・パンクメモリスタGlenn MarshallThe Age of A.I.Story2Hallucination音声変換レコメンデーションJukebox松尾豊Veap JapanEAPテンセントSIFT福井千春DCGAN医療MOBADANNCEメンタルケア人事ハーバード大学Edgar Handy研修デューク大学Netflixmynet.aiローグライクゲーム東京大学東京理科大学人工音声NeurIPS 2021産業技術総合研究所リザバーコンピューティングプレイ動画ヒップホップキャラクターモーションソニーマーケティングサイレント映画もじぱNBA環境音暗号通貨現代アートFUZZLEAlteration粒子群最適化法進化差分法オープンワールド群知能下川大樹AIFAウィル・ライト高津芳希P2E大石真史BEiTStyleGAN-NADAレベルデザインDETRゲームエンジンSporeUnreal Engineデノイズ南カリフォルニア大学Unity for Industry画像処理SentropyGLIDECPUDiscordAvatarCLIPSynthetic DataCALMプログラミングサム・アルトマンソースコード生成LaMDAGMAIシチズンデベロッパーSonanticTRPGGitHubCohereウィザードリィMCN-AI連携モデルマジック:ザ・ギャザリングAI DungeonUrzas.ai介護西川善司並木幸介Kikiサムライスピリッツ森寅嘉Zoetic AIゼビウスSIGGRAPH 2021ペットストリートファイター半導体Digital Dream LabsTopaz Video Enhance AICozmoDLSSタカラトミー山野辺一記NetEaseLOVOT大里飛鳥DynamixyzMOFLINRomiU-Netミクシィ13フェイズ構造アドベンチャーゲームユニロボットADVユニボXLandGatoAGI手塚眞DEATH STRANDINGマルチモーダル不気味の谷Eric Johnson汎用強化学習AIデザインOculus Questコジマプロダクションロンドン芸術大学生体情報デシマエンジンGoogle BrainインディーゲームSound Control写真高橋ミレイSYNTH SUPER照明Maxim PeterKarl SimsJoshua RomoffArtnomeハイパースケープICONATE山崎陽斗深層強化学習立木創太松原仁浜中雅俊ミライ小町武田英明テスラ福井健策GameGANパックマンTesla BotNEDOTesla AI DayWikipediaソサエティ5.0SphereSIGGRAPH 2020バズグラフXaver 1000ニュースタンテキ養蜂東芝BeewiseDIB-R倉田宜典フィンテック投資韻律射影MILIZE広告韻律転移三菱UFJ信託銀行

【JSAI2022】AI時代に考えるべき公平性とは何か?

2022.8.18先端技術

【JSAI2022】AI時代に考えるべき公平性とは何か?

AIが社会実装のフェーズに入ってきている今、議論が加速しているのがAIとデータ倫理に関わる課題についてです。これまでも、AIチャットボットが不適切なデータを学習したことにより暴言を吐くようになってしまったり、人事採用や犯罪予測というシーンでしてはならない差別をしてしまうというケースが起きています。人工知能学会全国大会における神嶌敏弘氏(産業技術総合研究所)のセッション「機械学習と公平性」から、AIの活用において公平性を担保するためには何が必要なのかを考えていきます。

不公平は機械学習でどのように起きるのか

機械学習における不公平が起こる背景には、ひとつに「バイアス」という要因があります。いわゆるデータの偏り(傾向)です。図1は、ウェブ上のデータを分析・活用する際にいかにしてバイアスの悪循環が起こるかを示したものです。*1

これを元に神嶌氏は、機械学習におけるバイアスを、大きくdata bias(データバイアス)、sample selection bias(標本選択バイアス)、inductive bias(帰納バイアス)の3つに分けて整理します(図2)。

<注>*1:https://cacm.acm.org/magazines/2018/6/228035-bias-on-the-web/fulltext

図1 Bias on the Web(Ricardo Baeza-Yates)
図2 data bias,sample selection bias,inductive bias

データバイアス

機械学習はデータを集約した上で予測します。そのため、そのデータが誤っていると正しい予測や意図した予測ができないということになります。例えば設定した目標値のラベルが誤っていたり、入力したデータの特徴量が適切でないと、本当に欲しいものとはズレてしまうことがよく生じます。これをデータバイアス、アノテーションバイアスと言います。

データが不適切にラベル付けされることで問題が生じるデータバイアスの例としてよく知られるのが、Sweeneyが指摘したネット広告配信における事例です。検索サイトで何か検索したいキーワードを入力すると、そのキーワードに関連する広告も表示されます。Sweeneyはinstantcheckmate.comという犯罪歴のある人を検索するサービスの広告に着目しました。これは、米国では犯罪歴を公開している州があり、各州ごとのデータベースを串刺しで検索できるというサービスです。

図3に示すとおり「Latanya Sweeney」というアフリカ系の名前にはネガティブな言葉(Arrested)とともに広告が出てきますが、「Jill Schneider」というヨーロッパ系の名前には中立的な言葉(located)が出てきます。Latanya Sweeneyという名前で過去に逮捕された人物はいません。つまり実際にデータベースに逮捕歴があるというわけではないのに、instantcheckmate.comの広告として「…Arrested?」(逮捕されたのか?)と提示されてしまうのは明らかに不公平だと言えそうです。

調査してみると、これはラストネームから広告文のテンプレートが選択されているだけでした。広告配信の選択スキームとして効率を上げるためにクリック率を最大化しようとするわけですが、結果として「アフリカ系の名前を見ると何となく犯罪を疑ってしまう」という社会の反応をそのまま反映してラベル付けがされてしまったということなのです。

図3 instantcheckmate.comの広告の例

標本選択バイアス

サンプリングバイアスとも呼ばれますが、これはデータのサンプリングにまつわる不都合です。例えば学習したデータセットとは異なるターゲットに対してモデルを適用する場合、学習したモデルでは正しい分類はできません。

ローン審査における予測モデルを作る場合、ローンを認められた人についてはローンを完済できたのか、できなかったのかが分かります。しかし、ローン審査の時点で振り落とされた人については実際に完済できるかどうかは分かりません。ローンを認められた人についてだけ学習せざるを得ないわけですが、学習したモデルを適用する母集団は審査が通るか通らないかを問わずローンに申し込んできた人全員をふくむデータになっているため、データの分布は当然違ってしまいます。

このようにサンプリングしたデータの内容・状況に依存していることによって偏りが生じるといったものが標本選択バイアスで、1979年にHeckmanが論文を発表して以来、さまざまな研究がされています。

図4 サンプルセレクションバイアスの構造

帰納バイアス

サンプリングしたデータを汎化するためには何らかの背景知識が必要になります。一種の仮定をもって予測を行いますが、その仮定が現実と異なることにより生じるのが帰納バイアスです。

「オッカムの剃刀」という指針が有名ですが、予測できるならばより簡単なモデルを選び、無視した部分はノイズとして扱うことで、全体としては多くの事例に対してよりよい予測が可能になります。しかし、無視した部分が重要な場合もあり、それが想定しない予測を起こすこともあります。これも帰納バイアスのひとつです。

例えば、米国にはCOMPAS(Correctional Offender Management Profiling for Alternative Sanctions)という再犯リスクを10段階で評価する評価システムがあり、多くの州で採用されています。ProPublica*2 の記事が明らかにしたデータですが、全体的な予測精度はアフリカ系とヨーロッパ系でほぼ同じではあるものの、False Positive Rate(FPR、誤判定率)の割合はアフリカ系とヨーロッパ系では大きな差があります(図5)。

図5 COMPASにおけるアフリカ系とヨーロッパ系での再犯リスクの予測

2年以内に再犯していないにもかかわらずRecidivism Rates(FPR、再犯率)が高いと予測されてしまった人の割合がアフリカ系で多いことから差別的であると話題になりました。この記事に対して、すぐに裁判所のオフィサー、犯罪学の専門家、統計学の専門家が3人連名で反論の文章を出しています(図6)。

<注>*2:ProPublica、データ分析を用いて客観的なジャーナリズムを行うデータジャーナリズムのNPO

図6 ProPublicaの調査に対する反論
  • COMPASは処分後の監督下にある人を対象としているが、ProPublicaのデータは公判前被告を分析したものである
  • 問題があるのは中リスクと高リスクをまとめた場合で、低リスクと中リスクをまとめれば問題はない
  • 観測値が与えられた時の予測値の分布ではなく、予測値が与えられた時の観測値の分布が使用されるべきである
  • 連邦政府の有罪判決後リスク評価(PCRA)のような標準が無視されている
  • 危険率の選択が不適切である

ここで注目しておきたいのが3番目の指摘です。詳細は後述しますが、これはCOMPASとProPublicaでは目指す公平性のゴールが異なるということです。機械学習における公平性にはいくつか考え方の違いがあり、お互いに同時には満たせない性質があります。神嶌氏は、ジャーナリズムや倫理学の領域において、その点が認識されていないことが大きな問題ではないかと語ります。

公平性の規準(criterion)とは

機械学習の社会実装に伴い、議論が進んでいるのが公平性配慮型機械学習(Fairness-aware Machine Learning)という領域です。これは、全体的な公平性、差別、中立性、独立性を考えながら予測を試みるもので、機械学習における公平性を実現するための技術です。

ここで登場するのがセンシティブ情報(S)とターゲット/目的変数(Y)です。センシティブ情報とは、漏洩した場合、本人に重大な不利益を及ぼす可能性のある情報(思想・信条、病歴、社会的身分など)です。一般に、法律など何らかのレギュレーションでその利用が制限されています。目的変数は「大学に進学できるか」「クレジットの審査に通るか」といったゴールのアクションです。センシティブ情報の特徴量、目的変数、およびモデル内の他の変数間の関係によって望ましい条件を定義し、それを満たしているかどうかで形式的に公平かどうかを捉えるということになります。

では、不公平であることはなぜよくないのでしょうか。訳語は「差別」となりますが、「Discrimination」という言葉は属性の違う人に対してそれぞれ異なる扱いをするという意味です*3 。では、何が「悪いDiscrimination」なのでしょうか。神嶌氏はLippert-Rasmussenの解釈をもとに、harm-based account(害ベース説)とdisrespect-based account(尊厳ベース説)を挙げます。害ベース説は差別されることで損害をもたらす場合を指し、ベンサムの功利主義や正義などの概念に結びついたものです。尊厳ベース説は道徳的に許されない場合、カントの義務論的な正義と結びつくものになります。

そして、公平性配慮型機械学習の目的は、主に害ベース説にもとづいて不公平を解消することにあります。背景にあるのは司法の要請です。例えば、米国のUniform Guidelines on Employee Selection Procedures(EEOC)などのガイドラインにおいて具体的な数値が示されていますが、それを守るための規準として提案されることになります。また、米国では雇用差別の禁止を規定した基本法「公民権法第7編(Title VII of the Civil Rights Act)」が制定され、具体的に裁判でも争われてきた結果、統計的格差を問題視する判例が出ています。そうした流れで害ベース説に基づいて悪い差別が定義されているとし、それに対応するように公平配慮型機械学習が設定されていることになります。ただ、司法の判断は賠償などを考慮することから害ベース説になりがちなのですが、必ずしも尊厳ベース説が説の意味がないというわけではありません。

<注>*3:Lippert-Rasmussenをはじめとする一部の倫理学の主張に基づく解釈です。

公平配慮型機械学習を考える上で、形式的公平性の規準をどこに置くかについては大きく3つの考え方があります。

  1. アソシエーション(連関)ベースの公平性:相関や独立性といった統計的関連性にもとづく定義によるもの、また配分の公正といった倫理的概念を数学的に表現しようとするもの
  2. 反実仮想的公平性:センシティブ情報がターゲット変数に対してどのような因果的な効果をもたらすかを検証するもの
  3. 経済ベースの公平性:ゲーム理論における公平分割問題の概念を用いたものなど

何か理想的な状態に対してズレがあることによって害が生じたと考えると、これはアソシエーション(連関)ベースの公平性ということになります。一方で、例えば「男性だから採用されたが仮に女性だったら採用されたかどうか分からない」と現実とは逆の状態を想定し、それにもとづいて差別があったかどうか考える場合は反実仮想公平性に当たります。

もうひとつ、独立性という概念がここで登場します。神嶌氏はセンシティブ情報(S)、非センシティブ情報(X)、目的変数(Y)を使って、次の図7のように示しました。無条件で独立であるということはSの情報がYには伝わっていない場合です(他に第3情報があると伝わる可能性もあるため、この状態ではとなりますが)。この時、SとYは条件なしで独立しているということになります。条件付き独立は、基本的には無関係なはずのSとYの間に、Xの情報を通じてSからYの値の中身が分かる所でつながりができてしまう状況です。例えばS、Yともに「0」と「1」をランダムに割り振り、XはパリティビットSとYが一致している時に「1」を出すとします。パリティビットとSの値が分かっていればYの値が予測できてしまうということで、この時にSはXの情報を通じてYとつながっているということになります。

図7 独立性の3つの状態

この独立性との関わり方によって、アソシエーション(連関)ベースの公平性をいくつかの種類に分けて考えることができます。

図8 アソシエーション(連関)ベースの公平性の種類

まず、Fairness through Unawareness(センシティブ情報の無視による公平性)とFairness through Awareness(センシティブ情報を参照する公平性)に分けられます。前者はセンシティブ情報を取り入れないことで公平性を満たそうというもの、後者はセンシティブ情報をもとに公平であるようにモデルを矯正するという考え方です。Fairness through Awarenessは、Individual Fairness(個人公平性)とgroup Fairnessに分かれます。Individual Fairnessはある個人について着目した時にそれがセンシティブ情報の値によらずに公平に扱われているかどうか、group Fairnessは人種などのグループを考えた時にグループ全体として公平に扱われているかが問題になります。

次にGROUP Fairnessは、データバイアスを修正するものと、帰納バイアスを修正するものに分かれます。結果の公平性に対応するのがstatistical parity、観測値によるキャリブレーションを行うequalized odds、予測値によるキャリブレーションを行うsufficiencyです。Fairness through UnawarenessとIndividual Fairnessは似通っていますが、これらとstatistical parity、equalized odds、sufficiencyそれぞれを同時に達成することは基本的にはできません。

前項でProPublicaと裁判所側の論争で公平性において満たそうとしている規準が異なるという話が出ていましたが、ProPublicaが主張した公平性はequalized oddsを根拠としたもの、裁判所が根拠としたのがSufficiencyと考えることができます。

図9 公平性の規準は相反する

公平性配慮型機械学習とは

こうした公平性の規準を満たすような機械学習を実現させるための初期のタスクは大きく次の2つに分かれています(図10)。

  1. 不公平の発見(Unfairness Discovery)
  2. 予測およびデータの変換の結果が公平になるように処理をして不正を防止する(Unfairness Prevention)
図10 公平性配慮型機械学習のタスク

Unfairness Discoveryは、あるデータ集合に対して過去の決定に不公正な判定があったかを検証します。2種類あり、データセット内の不公平なデータやサブグループを見つける(Unfairness Discovery from Datasets)、ブラックボックスとなっているモデルに色々なデータを入れることで、そのモデルが公平な出力をしているのかを監査する(Unfairness Discovery from Models)というものです。

Unfairness Discovery from Datasetsは、例えばアソシエーションルールを検出し、そのルールが予め定めたアソシエーションベースの公平性を達成しているかを列挙することで不公平な判定を検出します。

図11 Unfairness Discovery from Datasets

Unfairness Discovery from Modelsはモデルから不公平を発見します。挙動の分からないモデルに色々なデータを入れて結果を観測することができると仮定し、それに対して、センシティブ情報とノンセンシティブ情報の間にある関係をランダムにシャッフルすることによって消してしまうサロゲーションを行います。それによって独立したデータとそうではないデータを入力し、結果が異なればアウトと判定します。

図12 Unfairness Discovery from Models

次に、Unfairness Preventionです。こちらは前処理型、中処理型、後処理型の3つのアプローチがあります。前処理型は、不公平となりうるデータを公平なデータに変換してから標準的な分類器を適用するというものです。変換する人と分類する人を切り分けることで、センシティブな情報を知らせずに分類工程を行うことができるメリットはあるものの、本当にブラックボックスのデータになってしまうというデメリットがあります。

中処理型は、不公平となりうるデータセットから直接、公平かつ予測精度の高いモデルを学習するもので、分類器を自由に設計できる反面、目的関数の最適化が難しいアプローチです。現在、よく使われているのが後処理型で、まず予測値を学習し、後から結果が公平になるよう分類器を修正します。中処理型との違いはobliviousness(オブリビアスネス)という仮定が入る点です。公平な予測結果はノンセンシティブ情報を参照しないという制約のもと、予測した結果とセンシティブ情報だけを参照して個々の補正を行います。予測精度は制限されることにはなりますが、処理速度が速く最適化が容易なため、これが一番有力な方法だと言われています。

例えば後処理型のアプローチには、2010年にCaldersとVerwerが発表した2-naive-bayesがあります。センシティブ情報ごとに単純ベイズ分類器を作り、その後センシティブ情報と予測ラベルの値を見ながら修正して公平性を達成するという方法です。

図13 Calders and Verwer’s 2-naive-Bayes (CV2NB)

その後、2016年にHardtがequalized oddsを達成するよう敷居値を調節する理論を発表しました。神嶌氏はこれが後処理型では決め手になるだろうと考えています。

なお、神嶌氏自身は2012年に論文で中処理型を提案しています。2012年当時に比べて、2016年以降の引用数が急速に伸びているそうです。実際、神嶌氏が公平性を考慮した機械学習の研究を始めた2011年当時は国際的にも研究論文は多くありませんでした。その後、EUのGDPR制定の流れもあり、公平性を考慮した機械学習の研究は注目を集めるようになりました。

図14 公平性を考慮した機械学習の歴史

図9で見たように、公平性の規準が同時に満たせないことは数理的にも説明できます。これは、人間が判断したとしても同時には満たせないということです。つまり、機械学習だから起こる問題ではないということです。

では、どうすれば公平性を考慮した機械学習を実装し、社会に取り入れていくことができるのでしょうか。研究の場でいま議論されていることとして、神嶌氏は次のように述べました。

公平性の規準は互いに背反であり、同時に満たすことができません。では、現時点でどうすればいいのでしょうか。ひとつ案として考えるのは、モデルがどういう挙動をするかをオープンしておくというものです。予測した時にどういった指標で差があるのか、どういった公平性を達成するように設定したのか。どの公平性の規準を採用するかは目的に応じて決まるので、どの目的で使ってほしいかを示しておくのです。
実際、APIとして提供する際にはスペキュリテーションを明らかにすることが特に重要なのではなかろうかということが論じられています。現状できる対策として、公平性を保つために重要なのはこのあたりだと考えています。(神嶌敏弘氏)

機械学習における公平性の難しさは、つまり社会における公平性の難しさです。社会としてどう考えるか、どこを落としどころにすれば納得が得られるかといった議論を進めることがまずは求められています。

Writer:大内孝子

RELATED ARTICLE関連記事

電脳化でコントローラを使わずにゲームプレイするサル:月刊エンタメAIニュース vol.16

2021.4.23先端技術

電脳化でコントローラを使わずにゲームプレイするサル:月刊エンタメAIニュース v...

リスナーの感情に合わせたレコメンドエンジン:月刊エンタメAIニュース vol.4

2020.4.29先端技術

リスナーの感情に合わせたレコメンドエンジン:月刊エンタメAIニュース vol.4

ゲームプレイAI が進化させる無人戦闘機群とAI軍拡競争の萌芽

2020.9.28先端技術

ゲームプレイAI が進化させる無人戦闘機群とAI軍拡競争の萌芽

RANKING注目の記事はこちら