モリカトロン株式会社運営「エンターテインメント×AI」の最新情報をお届けするサイトです。
- TAG LIST
- CGCGへの扉安藤幸央機械学習ディープラーニング月刊エンタメAIニュース河合律子GANOpenAI音楽NVIDIA吉本幸記ニューラルネットワーク強化学習Google生成系AI三宅陽一郎QA人工知能学会GPT-3Stable Diffusion自然言語処理グーグルDeepMindFacebook森川幸人シナリオ大内孝子マイクロソフトChatGPT敵対的生成ネットワークルールベースアート映画キャラクターAIスクウェア・エニックスモリカトロンAIラボインタビューAIと倫理SIGGRAPHゲームプレイAI大規模言語モデル倫理デバッグNFTDALL-E2StyleGANプロシージャル遺伝的アルゴリズムモリカトロン著作権画像生成自動生成テストプレイメタAI画像生成AINPCテキスト画像生成ロボット深層学習ファッションCEDEC2019ディープフェイクVFXMidjourneyデジタルツインボードゲームDALL-ECLIPビヘイビア・ツリーCEDEC2021LLMCEDEC2020ゲームAIメタバース不完全情報ゲームVRナビゲーションAI畳み込みニューラルネットワークGDC 2021マンガJSAI2022AdobeNVIDIA OmniverseGDC 2019マルチエージェントCEDEC2022AIアート小説Stability AI懐ゲーから辿るゲームAI技術史toioジェネレーティブAIスポーツCNNBERT作曲MicrosoftUnityMinecraftアニメーションOmniverseメタJSAI2023鴫原盛之HTN階層型タスクネットワークソニー栗原聡手塚治虫汎用人工知能JSAI2020GTC2023TensorFlowインタビューバーチャルヒューマンイベントレポート対話型エージェントAmazonロボティクスDQNMeta水野勇太アバター3DCGUbisoftGenvid TechnologiesガイスターStyleGAN2デジタルヒューマンGTC2022教育音楽生成AIJSAI2021研究シムピープルMCS-AI動的連携モデルモーションキャプチャーElectronic ArtsNeRFマーケティングメタデータGDC SummerブロックチェーンCMMicrosoft Azureアストロノーカキャリア模倣学習eスポーツスタンフォード大学アーケードゲームテニスサイバーエージェントトレーディングカード音声認識メディアアートeSportsBLUE PROTOCOLシーマンaibo合成音声チャットボットAWS徳井直生斎藤由多加AlphaZeroTransformerGPT-2rinnaAIりんなカメラ環世界中島秀之PaLM哲学ベリサーブPlayable!理化学研究所SIGGRAPH ASIASFNetflix東京大学はこだて未来大学現代アートエージェントDARPAドローンシムシティImagenZorkバイアスプロンプトGPT-4ASBSアドベンチャーゲームTEZUKA2020CEDEC2023AI美空ひばりテキスト生成マルチモーダルバンダイナムコ研究所スパーシャルAI3DLEFT 4 DEADイーロン・マスク通しプレイOpenAI FiveStable Diffusion XL本間翔太CygamesAudio2Faceピクサープラチナエッグイーサリアムボエダ・ゴティエビッグデータ中嶋謙互Amadeus Codeデータ分析MILEナラティブNVIDIA RivaOmniverse ReplicatorWCCFレコメンドシステムNVIDIA DRIVE SimWORLD CLUB Champion FootballNVIDIA Isaac Simセガ柏田知大軍事田邊雅彦トレカMax CooperGPT類家利直PyTorchChatGPT4眞鍋和子バンダイナムコスタジオ大澤博隆SFプロトタイピング齊藤陽介マインクラフトお知らせMagic Leap OneTencentバスケットボールサルでもわかる人工知能text-to-3DVAEDreamFusionブラック・ジャックリップシンキングUbisoft La Forge自動運転車ワークショップ知識表現ウォッチドッグス レギオンIGDA秋期GTC2022市場分析どうぶつしょうぎEpic GamesRobloxジェイ・コウガミ音楽ストリーミングMITAIロボ「迷キュー」に挑戦野々下裕子マシンラーニング5GMuZeroRival Peakpixivクラウド対話エンジン3Dスキャンリトル・コンピュータ・ピープルCodexシーマン人工知能研究所コンピューティショナル・フォトグラフィーPreferred Networksゴブレット・ゴブラーズ絵画ARMicrosoft DesignerイラストシミュレーションSoul Machines柿沼太一完全情報ゲームELSI坂本洋典釜屋憲彦ウェイポイントパス検索対談藤澤仁生物学GTC 2022画像認識GPT-3.5ハリウッドSiemensストライキStyleCLIPDeNA長谷洋平クラウドコンピューティングmasumi toyotaIBM宮路洋一OpenSeaGDC 2022SNSGen-1TextWorldEarth-2BingMagenta音声生成AIELYZA PencilScenarioSIGGRAPH2023テキスト画像生成AI松尾豊AIピカソGTC2021AI素材.comCycleGANテンセントAIQVE ONEデータマイニングNetHackBardキャラクターモーションControlNetNBAフェイクニュースRPG法律SIGGRAPH 2022世界モデルレベルデザインAIボイスアクターNVIDIA CanvasGPUALife人工生命オルタナティヴ・マシンサウンドスケープLaMDATRPGマジック:ザ・ギャザリングAI Dungeonぱいどん手塚眞不気味の谷ナビゲーションメッシュインディーゲーム高橋ミレイ深層強化学習松原仁松井俊浩武田英明ELYZAフルコトNEDOELYZA DIGEST建築音声合成広告西成活裕Apex LegendsELIZA群衆マネジメントライブポートレイトNinjaコンピュータRPGライブビジネスWonder Studioアップルタウン物語新型コロナ土木KELDIC周済涛BIMメロディ言語清田陽司インフラゲームTENTUPLAYサイバネティックスMARVEL Future FightAstro人工知能史Amazon BedrockタイムラプスEgo4DAI哲学マップバスキア星新一X.AI日経イノベーション・ラボStyleGAN-XLX Corp.敵対的強化学習StyleGAN3Twitter階層型強化学習GOSU Data LabGANimatorXホールディングスWANNGOSU Voice AssistantVoLux-GANMagi竹内将SenpAI.GGProjected GANMobalyticsSelf-Distilled StyleGANSDXL馬淵浩希ニューラルレンダリングRTFKT岡島学AWS SagemakerPLATONIKE映像セリア・ホデント形態素解析frame.ioClone XUXAWS LambdaFoodly村上隆誤字検出森山和道認知科学中川友紀子Digital MarkゲームデザインSentencePieceアールティSnapchatLUMINOUS ENGINEクリエイターコミュニティLuminous ProductionsBlenderBot 3バーチャルペットパターン・ランゲージ竹村也哉Meta AINVIDIA NeMo Serviceちょまどマーク・ザッカーバーグヴァネッサ・ローザGOAPWACULVanessa A RosaAdobe MAX 2021陶芸自動翻訳Play.ht音声AIAIライティングLiDAROmniverse AvatarAIのべりすとPolycamFPSQuillBotdeforumマルコフ決定過程NVIDIA MegatronCopysmith動画生成AINVIDIA MerlinJasperハーベストNVIDIA MetropolisForGamesパラメータ設計ゲームマーケットバランス調整岡野翔太協調フィルタリング郡山喜彦人狼知能テキサス大学ジェフリー・ヒントンGoogle I/O 2023AlphaDogfight TrialsAI Messenger VoicebotGoogle I/OエージェントシミュレーションOpenAI Codex武蔵野美術大学StarCraft IIHyperStyleBingAIFuture of Life InstituteRendering with StyleIntelDisneyFireflyLAIKADisneyリサーチヴィトゲンシュタインPhotoshopRotomationGauGAN論理哲学論考LightroomGauGAN2京都芸術大学Canvaドラゴンクエストライバルズ画像言語表現モデル不確定ゲームSIGGRAPH ASIA 2021PromptBaseBOOTHDota 2モンテカルロ木探索ディズニーリサーチpixivFANBOXMitsuba2バンダイナムコネクサス虎の穴ソーシャルゲームEmbeddingワイツマン科学研究所ユーザーレビューFantiaGTC2020CG衣装mimicとらのあなNVIDIA MAXINEVRファッションBaidu集英社淡路滋ビデオ会議ArtflowERNIE-ViLG少年ジャンプ+グリムノーツEponym古文書ComicCopilotゴティエ・ボエダ音声クローニング凸版印刷コミコパGautier Boeda階層的クラスタリングGopherAI-OCRゲームマスター画像判定Inowrld AIJuliusSIE鑑定ラベル付けMODTPRGOxia PalusGhostwriterバーチャル・ヒューマン・エージェントtoio SDK for UnityArt RecognitionSkyrimクーガー田中章愛実況パワフルサッカースカイリム石井敦銭起揚NHC 2021桃太郎電鉄RPGツクールMZ茂谷保伯池田利夫桃鉄ChatGPT_APIMZGDMC新刊案内パワサカダンジョンズ&ドラゴンズマーベル・シネマティック・ユニバースコナミデジタルエンタテインメントOracle RPG成沢理恵MITメディアラボMCU岩倉宏介深津貴之アベンジャーズPPOxVASynthマジック・リープDigital DomainMachine Learning Project CanvasLaser-NVMagendaMasquerade2.0国立情報学研究所ノンファンジブルトークンDDSPフェイシャルキャプチャー石川冬樹MERFサッカーモリカトロン開発者インタビュースパコンAlibaba里井大輝Kaggle宮本茂則スーパーコンピュータVQRF山田暉松岡 聡nvdiffrecAssassin’s Creed OriginsAI会話ジェネレーターTSUBAME 1.0NeRFMeshingSea of ThievesTSUBAME 2.0LERFGEMS COMPANYmonoAI technologyLSTMABCIマスタリングモリカトロンAIソリューション富岳TikTok初音ミクOculusコード生成AISociety 5.0リアム・ギャラガー転移学習テストAlphaCode夏の電脳甲子園グライムスBaldur's Gate 3Codeforces座談会BoomyCandy Crush Saga自己増強型AItext-to-imageジョン・レジェンドSIGGRAPH ASIA 2020COLMAPザ・ウィークエンドADOPNVIDIA GET3DドレイクデバッギングBigGANGANverse3DTEZUKA2023MaterialGANRNNグランツーリスモSPORTAI絵師エッジワークスReBeLグランツーリスモ・ソフィーUGC日本音楽作家団体協議会GTソフィーPGCFCAVolvoFIAグランツーリスモチャンピオンシップVoiceboxNovelAIさくらインターネットRival PrakDGX A100NovelAI DiffusionVTuberぷよぷよユービーアイソフトWebcam VTuberモーションデータ立教大学星新一賞大阪公立大学北尾まどかHALOポーズ推定TCG将棋メタルギアソリッドVフォートナイトメッシュ生成KLabFSMメルセデス・ベンツQRコードMagic Leap囲碁ナップサック問題Live NationEpyllionデンソー汎用言語モデルWeb3.0マシュー・ボールデンソーウェーブAIOpsムーアの法則原昌宏Spotifyスマートコントラクト日本機械学会Replica Studioロボティクス・メカトロニクス講演会amuseChitrakarQosmoAdobe MAX 2022トヨタ自動車巡回セールスマン問題Adobe MAXかんばん方式ジョルダン曲線メディアAdobe Research村井源政治Galacticaプロット生成クラウドゲーミングがんばれ森川君2号オムロン サイニックエックス和田洋一リアリティ番組映像解析FastGANStadiaジョンソン裕子セキュリティ4コママンガMILEsNightCafe東芝デジタルソリューションズ電気通信大学インタラクティブ・ストリーミングLuis RuizSATLYS 映像解析AI稲葉通将インタラクティブ・メディアポケモン橋本敦史PFN 3D ScanElevenLabs東京工業大学HeyGenLudo博報堂After EffectsラップPFN 4D Scan絵本SIGGRAPH 2019ArtEmisZ世代DreamUp出版AIラッパーシステムDeviantArtAmmaar ReshiWaifu DiffusionStoriesGROVERプラスリンクス ~キミと繋がる想い~元素法典StoryBirdFAIRSTCNovel AIVersedチート検出Style Transfer ConversationOpen AIProlificDreamerオンラインカジノRCPUnity SentisアップルRealFlowRinna Character PlatformUnity MuseiPhoneCALACaleb WardDeep Fluids宮田龍MeInGameAmelia清河幸子AIGraphブレイン・コンピュータ・インタフェースバーチャルキャラクター西中美和BCIGateboxアフォーダンス安野貴博Learning from VideoANIMAKPaLM-SayCan斧田小夜予期知能逢妻ヒカリ宮本道人セコムGitHub CopilotLLaMA 2ユクスキュルバーチャル警備システムCode as PoliciesLLaMAカント損保ジャパンCaPHugging FaceCM3leon上原利之Stable DoodleドラゴンクエストエージェントアーキテクチャアッパーグラウンドコリジョンチェックT2I-AdapterPAIROCTOPATH TRAVELERxAI西木康智OCTOPATH TRAVELER 大陸の覇者山口情報芸術センター[YCAM]アルスエレクトロニカ2019品質保証YCAM日本マネジメント総合研究所StyleRigAutodeskアンラーニング・ランゲージVoyager逆転オセロニアBentley Systemsカイル・マクドナルドLily Hughes-Robinsonワールドシミュレーターローレン・リー・マッカーシーColossal Cave Adventure奥村エルネスト純いただきストリートH100鎖国[Walled Garden]プロジェクトAdventureGPT齋藤精一大森田不可止COBOLSIGGRAPH ASIA 2022リリー・ヒューズ=ロビンソン高橋智隆DGX H100VToonifyBabyAGIロボユニザナックDGX SuperPODControlVAEGPT-3.5 Turbo泉幸典仁井谷正充変分オートエンコーダーカーリングロボコレ2019Instant NeRFフォトグラメトリウィンブルドンartonomous回帰型ニューラルネットワークbitGANsDeepJoin戦術分析ぎゅわんぶらあ自己中心派Azure Machine LearningAzure OpenAI Serviceパフォーマンス測定意思決定モデル脱出ゲームDeepLIoTHybrid Reward Architectureコミュニティ管理DeepL WriteProFitXウロチョロスSuper PhoenixWatsonxProject MalmoオンラインゲームAthletica気候変動コーチングProject Paidiaシンギュラリティ北見工業大学Project Lookoutマックス・プランク気象研究所レイ・カーツワイル北見カーリングホールWatch Forビョルン・スティーブンスヴァーナー・ヴィンジ画像解析気象モデルRunway ResearchじりつくんLEFT ALIVE気象シミュレーションMake-A-VideoNTT Sportict長谷川誠ジミ・ヘンドリックス環境問題PhenakiAIカメラBaby Xカート・コバーンエコロジーDreamixSTADIUM TUBEロバート・ダウニー・Jr.エイミー・ワインハウスSDGsText-to-ImageモデルPixelllot S3ソフトバンクYouTubeダフト・パンクメモリスタAIスマートコーチGlenn MarshallThe Age of A.I.Story2Hallucination音声変換LatitudeレコメンデーションJukeboxDreamboothVeap Japanヤン・ルカンEAPneoAIPerfusionSIFT福井千春DreamIconニューラル物理学DCGAN医療mign毛髪MOBADANNCEメンタルケアstudiffuse荒牧英治人事ハーバード大学Edgar HandyAndreessen Horowitz中ザワヒデキ研修デューク大学大屋雄裕QA Tech Night中川裕志mynet.aiローグライクゲーム松木晋祐Adreeseen Horowitz東京理科大学下田純也NVIDIA Avatar Cloud Engine人工音声NeurIPS 2021産業技術総合研究所桑野範久Replica StudiosリザバーコンピューティングSmart NPCsプレイ動画ヒップホップ対話型AIモデルRoblox Studio詩ソニーマーケティングPromethean AIサイレント映画もじぱnote音源分離環境音暗号通貨note AIアシスタントMusiioFUZZLEKetchupEndelAlterationAI Newsユニバーサルミュージック粒子群最適化法Art Selfie進化差分法オープンワールドArt TransferSonar群知能下川大樹AIFAPet PortraitsSonar+Dウィル・ライト高津芳希P2EBlob OperaWeb3大石真史クリムトDolby AtmosBEiTStyleGAN-NADASonar Music FestivalDETRゲームエンジンDreamerV3ライゾマティクスSporeUnreal Engineクリティックネットワーク真鍋大度デノイズ南カリフォルニア大学Unity for Industryアクターネットワーク花井裕也画像処理DMLabRitchie HawtinSentropyGLIDEControl SuiteErica SynthCPUDiscordAvatarCLIPAtari 100kUfuk Barış MutluSynthetic DataAtari 200MJapanese InstructBLIP AlphaCALMYann LeCun日本新聞協会プログラミングサム・アルトマン鈴木雅大AIいらすとやソースコード生成コンセプトアートAI PicassoGMAIシチズンデベロッパーSonanticColie WertzEmposyGitHubCohereリドリー・スコットAIタレントウィザードリィMCN-AI連携モデル絵コンテAIタレントエージェンシーUrzas.aiストーリーボードmodi.ai介護大阪大学BitSummit西川善司並木幸介KikiBlenderBitSummit Let’s Go!!サムライスピリッツ森寅嘉Zoetic AIRed RamゼビウスSIGGRAPH 2021ペットマーダーミステリーストリートファイター半導体Digital Dream LabsPaLM APIデジタルレプリカTopaz Video Enhance AICozmoMakerSuiteGOT7DLSSタカラトミーSkebsynthesia山野辺一記NetEaseLOVOTDreambooth-Stable-DiffusionHumanRF大里飛鳥DynamixyzMOFLINゲーム背景Actors-HQRomiGoogle EarthSAG-AFTRAU-NetミクシィGEPPETTO AIWGA13フェイズ構造ユニロボットStable Diffusion web UIチャーリー・ブルッカーADVユニボPoint-EXLandGatoアパレル岡野原大輔AGIAI model自己教師あり学習DEATH STRANDINGAI ModelsIn-Context Learning(ICL)Eric Johnson汎用強化学習AIZMO.AILoRAデザインMOBBY’SファインチューニングOculus Questコジマプロダクションロンドン芸術大学モビーディックグランツーリスモ生体情報デシマエンジンGoogle Brainダイビング量子コンピュータSound Controlアウトドアqubit写真SYNTH SUPERAIスキャニングIBM Quantum System 2照明Maxim PeterKarl Sims自動採寸北野宏明Joshua RomoffArtnome3DLOOKダリオ・ヒルハイパースケープICONATESizerジェン・スン・フアン山崎陽斗ワコールHuggingFace立木創太スニーカーStable Audio浜中雅俊UNSTREET宗教ミライ小町Newelse仏教テスラ福井健策CheckGoodsコカ・コーラGameGAN二次流通食品パックマンTesla Bot中古市場Coca‑Cola Y3000 Zero SugarTesla AI DayWikipediaDupe KillerCopilot Copyright Commitmentソサエティ5.0Sphere偽ブランドテラバースSIGGRAPH 2020バズグラフXaver 1000配信京都大学ニュースタンテキ養蜂立福寛東芝Beewiseソニー・ピクチャーズ アニメーション音声解析DIB-R倉田宜典フィンテック感情分析投資Fosters+Partners韻律射影MILIZEZaha Hadid Architects韻律転移三菱UFJ信託銀行
【JSAI2022】AI時代に考えるべき公平性とは何か?
AIが社会実装のフェーズに入ってきている今、議論が加速しているのがAIとデータ倫理に関わる課題についてです。これまでも、AIチャットボットが不適切なデータを学習したことにより暴言を吐くようになってしまったり、人事採用や犯罪予測というシーンでしてはならない差別をしてしまうというケースが起きています。人工知能学会全国大会における神嶌敏弘氏(産業技術総合研究所)のセッション「機械学習と公平性」から、AIの活用において公平性を担保するためには何が必要なのかを考えていきます。
不公平は機械学習でどのように起きるのか
機械学習における不公平が起こる背景には、ひとつに「バイアス」という要因があります。いわゆるデータの偏り(傾向)です。図1は、ウェブ上のデータを分析・活用する際にいかにしてバイアスの悪循環が起こるかを示したものです。*1
これを元に神嶌氏は、機械学習におけるバイアスを、大きくdata bias(データバイアス)、sample selection bias(標本選択バイアス)、inductive bias(帰納バイアス)の3つに分けて整理します(図2)。
<注>*1:https://cacm.acm.org/magazines/2018/6/228035-bias-on-the-web/fulltext


データバイアス
機械学習はデータを集約した上で予測します。そのため、そのデータが誤っていると正しい予測や意図した予測ができないということになります。例えば設定した目標値のラベルが誤っていたり、入力したデータの特徴量が適切でないと、本当に欲しいものとはズレてしまうことがよく生じます。これをデータバイアス、アノテーションバイアスと言います。
データが不適切にラベル付けされることで問題が生じるデータバイアスの例としてよく知られるのが、Sweeneyが指摘したネット広告配信における事例です。検索サイトで何か検索したいキーワードを入力すると、そのキーワードに関連する広告も表示されます。Sweeneyはinstantcheckmate.comという犯罪歴のある人を検索するサービスの広告に着目しました。これは、米国では犯罪歴を公開している州があり、各州ごとのデータベースを串刺しで検索できるというサービスです。
図3に示すとおり「Latanya Sweeney」というアフリカ系の名前にはネガティブな言葉(Arrested)とともに広告が出てきますが、「Jill Schneider」というヨーロッパ系の名前には中立的な言葉(located)が出てきます。Latanya Sweeneyという名前で過去に逮捕された人物はいません。つまり実際にデータベースに逮捕歴があるというわけではないのに、instantcheckmate.comの広告として「…Arrested?」(逮捕されたのか?)と提示されてしまうのは明らかに不公平だと言えそうです。
調査してみると、これはラストネームから広告文のテンプレートが選択されているだけでした。広告配信の選択スキームとして効率を上げるためにクリック率を最大化しようとするわけですが、結果として「アフリカ系の名前を見ると何となく犯罪を疑ってしまう」という社会の反応をそのまま反映してラベル付けがされてしまったということなのです。

標本選択バイアス
サンプリングバイアスとも呼ばれますが、これはデータのサンプリングにまつわる不都合です。例えば学習したデータセットとは異なるターゲットに対してモデルを適用する場合、学習したモデルでは正しい分類はできません。
ローン審査における予測モデルを作る場合、ローンを認められた人についてはローンを完済できたのか、できなかったのかが分かります。しかし、ローン審査の時点で振り落とされた人については実際に完済できるかどうかは分かりません。ローンを認められた人についてだけ学習せざるを得ないわけですが、学習したモデルを適用する母集団は審査が通るか通らないかを問わずローンに申し込んできた人全員をふくむデータになっているため、データの分布は当然違ってしまいます。
このようにサンプリングしたデータの内容・状況に依存していることによって偏りが生じるといったものが標本選択バイアスで、1979年にHeckmanが論文を発表して以来、さまざまな研究がされています。

帰納バイアス
サンプリングしたデータを汎化するためには何らかの背景知識が必要になります。一種の仮定をもって予測を行いますが、その仮定が現実と異なることにより生じるのが帰納バイアスです。
「オッカムの剃刀」という指針が有名ですが、予測できるならばより簡単なモデルを選び、無視した部分はノイズとして扱うことで、全体としては多くの事例に対してよりよい予測が可能になります。しかし、無視した部分が重要な場合もあり、それが想定しない予測を起こすこともあります。これも帰納バイアスのひとつです。
例えば、米国にはCOMPAS(Correctional Offender Management Profiling for Alternative Sanctions)という再犯リスクを10段階で評価する評価システムがあり、多くの州で採用されています。ProPublica*2 の記事が明らかにしたデータですが、全体的な予測精度はアフリカ系とヨーロッパ系でほぼ同じではあるものの、False Positive Rate(FPR、誤判定率)の割合はアフリカ系とヨーロッパ系では大きな差があります(図5)。

2年以内に再犯していないにもかかわらずRecidivism Rates(FPR、再犯率)が高いと予測されてしまった人の割合がアフリカ系で多いことから差別的であると話題になりました。この記事に対して、すぐに裁判所のオフィサー、犯罪学の専門家、統計学の専門家が3人連名で反論の文章を出しています(図6)。
<注>*2:ProPublica、データ分析を用いて客観的なジャーナリズムを行うデータジャーナリズムのNPO

- COMPASは処分後の監督下にある人を対象としているが、ProPublicaのデータは公判前被告を分析したものである
- 問題があるのは中リスクと高リスクをまとめた場合で、低リスクと中リスクをまとめれば問題はない
- 観測値が与えられた時の予測値の分布ではなく、予測値が与えられた時の観測値の分布が使用されるべきである
- 連邦政府の有罪判決後リスク評価(PCRA)のような標準が無視されている
- 危険率の選択が不適切である
ここで注目しておきたいのが3番目の指摘です。詳細は後述しますが、これはCOMPASとProPublicaでは目指す公平性のゴールが異なるということです。機械学習における公平性にはいくつか考え方の違いがあり、お互いに同時には満たせない性質があります。神嶌氏は、ジャーナリズムや倫理学の領域において、その点が認識されていないことが大きな問題ではないかと語ります。
公平性の規準(criterion)とは
機械学習の社会実装に伴い、議論が進んでいるのが公平性配慮型機械学習(Fairness-aware Machine Learning)という領域です。これは、全体的な公平性、差別、中立性、独立性を考えながら予測を試みるもので、機械学習における公平性を実現するための技術です。
ここで登場するのがセンシティブ情報(S)とターゲット/目的変数(Y)です。センシティブ情報とは、漏洩した場合、本人に重大な不利益を及ぼす可能性のある情報(思想・信条、病歴、社会的身分など)です。一般に、法律など何らかのレギュレーションでその利用が制限されています。目的変数は「大学に進学できるか」「クレジットの審査に通るか」といったゴールのアクションです。センシティブ情報の特徴量、目的変数、およびモデル内の他の変数間の関係によって望ましい条件を定義し、それを満たしているかどうかで形式的に公平かどうかを捉えるということになります。
では、不公平であることはなぜよくないのでしょうか。訳語は「差別」となりますが、「Discrimination」という言葉は属性の違う人に対してそれぞれ異なる扱いをするという意味です*3 。では、何が「悪いDiscrimination」なのでしょうか。神嶌氏はLippert-Rasmussenの解釈をもとに、harm-based account(害ベース説)とdisrespect-based account(尊厳ベース説)を挙げます。害ベース説は差別されることで損害をもたらす場合を指し、ベンサムの功利主義や正義などの概念に結びついたものです。尊厳ベース説は道徳的に許されない場合、カントの義務論的な正義と結びつくものになります。
そして、公平性配慮型機械学習の目的は、主に害ベース説にもとづいて不公平を解消することにあります。背景にあるのは司法の要請です。例えば、米国のUniform Guidelines on Employee Selection Procedures(EEOC)などのガイドラインにおいて具体的な数値が示されていますが、それを守るための規準として提案されることになります。また、米国では雇用差別の禁止を規定した基本法「公民権法第7編(Title VII of the Civil Rights Act)」が制定され、具体的に裁判でも争われてきた結果、統計的格差を問題視する判例が出ています。そうした流れで害ベース説に基づいて悪い差別が定義されているとし、それに対応するように公平配慮型機械学習が設定されていることになります。ただ、司法の判断は賠償などを考慮することから害ベース説になりがちなのですが、必ずしも尊厳ベース説が説の意味がないというわけではありません。
<注>*3:Lippert-Rasmussenをはじめとする一部の倫理学の主張に基づく解釈です。
公平配慮型機械学習を考える上で、形式的公平性の規準をどこに置くかについては大きく3つの考え方があります。
- アソシエーション(連関)ベースの公平性:相関や独立性といった統計的関連性にもとづく定義によるもの、また配分の公正といった倫理的概念を数学的に表現しようとするもの
- 反実仮想的公平性:センシティブ情報がターゲット変数に対してどのような因果的な効果をもたらすかを検証するもの
- 経済ベースの公平性:ゲーム理論における公平分割問題の概念を用いたものなど
何か理想的な状態に対してズレがあることによって害が生じたと考えると、これはアソシエーション(連関)ベースの公平性ということになります。一方で、例えば「男性だから採用されたが仮に女性だったら採用されたかどうか分からない」と現実とは逆の状態を想定し、それにもとづいて差別があったかどうか考える場合は反実仮想公平性に当たります。
もうひとつ、独立性という概念がここで登場します。神嶌氏はセンシティブ情報(S)、非センシティブ情報(X)、目的変数(Y)を使って、次の図7のように示しました。無条件で独立であるということはSの情報がYには伝わっていない場合です(他に第3情報があると伝わる可能性もあるため、この状態ではとなりますが)。この時、SとYは条件なしで独立しているということになります。条件付き独立は、基本的には無関係なはずのSとYの間に、Xの情報を通じてSからYの値の中身が分かる所でつながりができてしまう状況です。例えばS、Yともに「0」と「1」をランダムに割り振り、XはパリティビットSとYが一致している時に「1」を出すとします。パリティビットとSの値が分かっていればYの値が予測できてしまうということで、この時にSはXの情報を通じてYとつながっているということになります。

この独立性との関わり方によって、アソシエーション(連関)ベースの公平性をいくつかの種類に分けて考えることができます。

まず、Fairness through Unawareness(センシティブ情報の無視による公平性)とFairness through Awareness(センシティブ情報を参照する公平性)に分けられます。前者はセンシティブ情報を取り入れないことで公平性を満たそうというもの、後者はセンシティブ情報をもとに公平であるようにモデルを矯正するという考え方です。Fairness through Awarenessは、Individual Fairness(個人公平性)とgroup Fairnessに分かれます。Individual Fairnessはある個人について着目した時にそれがセンシティブ情報の値によらずに公平に扱われているかどうか、group Fairnessは人種などのグループを考えた時にグループ全体として公平に扱われているかが問題になります。
次にGROUP Fairnessは、データバイアスを修正するものと、帰納バイアスを修正するものに分かれます。結果の公平性に対応するのがstatistical parity、観測値によるキャリブレーションを行うequalized odds、予測値によるキャリブレーションを行うsufficiencyです。Fairness through UnawarenessとIndividual Fairnessは似通っていますが、これらとstatistical parity、equalized odds、sufficiencyそれぞれを同時に達成することは基本的にはできません。
前項でProPublicaと裁判所側の論争で公平性において満たそうとしている規準が異なるという話が出ていましたが、ProPublicaが主張した公平性はequalized oddsを根拠としたもの、裁判所が根拠としたのがSufficiencyと考えることができます。

公平性配慮型機械学習とは
こうした公平性の規準を満たすような機械学習を実現させるための初期のタスクは大きく次の2つに分かれています(図10)。
- 不公平の発見(Unfairness Discovery)
- 予測およびデータの変換の結果が公平になるように処理をして不正を防止する(Unfairness Prevention)

Unfairness Discoveryは、あるデータ集合に対して過去の決定に不公正な判定があったかを検証します。2種類あり、データセット内の不公平なデータやサブグループを見つける(Unfairness Discovery from Datasets)、ブラックボックスとなっているモデルに色々なデータを入れることで、そのモデルが公平な出力をしているのかを監査する(Unfairness Discovery from Models)というものです。
Unfairness Discovery from Datasetsは、例えばアソシエーションルールを検出し、そのルールが予め定めたアソシエーションベースの公平性を達成しているかを列挙することで不公平な判定を検出します。

Unfairness Discovery from Modelsはモデルから不公平を発見します。挙動の分からないモデルに色々なデータを入れて結果を観測することができると仮定し、それに対して、センシティブ情報とノンセンシティブ情報の間にある関係をランダムにシャッフルすることによって消してしまうサロゲーションを行います。それによって独立したデータとそうではないデータを入力し、結果が異なればアウトと判定します。

次に、Unfairness Preventionです。こちらは前処理型、中処理型、後処理型の3つのアプローチがあります。前処理型は、不公平となりうるデータを公平なデータに変換してから標準的な分類器を適用するというものです。変換する人と分類する人を切り分けることで、センシティブな情報を知らせずに分類工程を行うことができるメリットはあるものの、本当にブラックボックスのデータになってしまうというデメリットがあります。
中処理型は、不公平となりうるデータセットから直接、公平かつ予測精度の高いモデルを学習するもので、分類器を自由に設計できる反面、目的関数の最適化が難しいアプローチです。現在、よく使われているのが後処理型で、まず予測値を学習し、後から結果が公平になるよう分類器を修正します。中処理型との違いはobliviousness(オブリビアスネス)という仮定が入る点です。公平な予測結果はノンセンシティブ情報を参照しないという制約のもと、予測した結果とセンシティブ情報だけを参照して個々の補正を行います。予測精度は制限されることにはなりますが、処理速度が速く最適化が容易なため、これが一番有力な方法だと言われています。
例えば後処理型のアプローチには、2010年にCaldersとVerwerが発表した2-naive-bayesがあります。センシティブ情報ごとに単純ベイズ分類器を作り、その後センシティブ情報と予測ラベルの値を見ながら修正して公平性を達成するという方法です。

その後、2016年にHardtがequalized oddsを達成するよう敷居値を調節する理論を発表しました。神嶌氏はこれが後処理型では決め手になるだろうと考えています。
なお、神嶌氏自身は2012年に論文で中処理型を提案しています。2012年当時に比べて、2016年以降の引用数が急速に伸びているそうです。実際、神嶌氏が公平性を考慮した機械学習の研究を始めた2011年当時は国際的にも研究論文は多くありませんでした。その後、EUのGDPR制定の流れもあり、公平性を考慮した機械学習の研究は注目を集めるようになりました。

図9で見たように、公平性の規準が同時に満たせないことは数理的にも説明できます。これは、人間が判断したとしても同時には満たせないということです。つまり、機械学習だから起こる問題ではないということです。
では、どうすれば公平性を考慮した機械学習を実装し、社会に取り入れていくことができるのでしょうか。研究の場でいま議論されていることとして、神嶌氏は次のように述べました。
公平性の規準は互いに背反であり、同時に満たすことができません。では、現時点でどうすればいいのでしょうか。ひとつ案として考えるのは、モデルがどういう挙動をするかをオープンしておくというものです。予測した時にどういった指標で差があるのか、どういった公平性を達成するように設定したのか。どの公平性の規準を採用するかは目的に応じて決まるので、どの目的で使ってほしいかを示しておくのです。
実際、APIとして提供する際にはスペキュリテーションを明らかにすることが特に重要なのではなかろうかということが論じられています。現状できる対策として、公平性を保つために重要なのはこのあたりだと考えています。(神嶌敏弘氏)
機械学習における公平性の難しさは、つまり社会における公平性の難しさです。社会としてどう考えるか、どこを落としどころにすれば納得が得られるかといった議論を進めることがまずは求められています。
Writer:大内孝子