パチスロサイバードラゴン

<ウェブサイト名>

<現在の時刻>

出典: 標準

このサイトではJavascript機能をOnにしてご利用ください。ページの本文へ日本語 English 中文 RIETIについてサイトマップヘルプお問い合わせ論文検索サービスサイト内検索メニュー研究テーマプログラム (2024-2028年度) プログラム (2020-2023年度) プログラム (2016-2019年度) プログラム (2011-2015年度) 政策研究領域 (2006-2010年度) 主要政策研究課題 (2003-2005年度) 経済産業省共同プロジェクトプロジェクトコンテンツ調査フェロー（研究員）肩書き別一覧アルファベット順過去の在籍者フェローの活動論文ディスカッション・ペーパー（日本語）ディスカッション・ペーパー（英語）ポリシー・ディスカッション・ペーパー（日本語）ポリシー・ディスカッション・ペーパー（英語）テクニカル・ペーパー（日本語）テクニカル・ペーパー（英語）ノンテクニカルサマリー英文査読付学術誌等掲載リスト Research Digest 政策分析論文調査レポート論文検索サービス出版物 RIETIブックス（日本語） RIETIブックス（英語）通商産業政策史著者からひとこと RIETI電子書籍年次報告書・広報誌（RIETI Highlight）その他出版物（日本語）その他出版物（英語）イベントシンポジウムワークショップ BBLセミナー終了したセミナーシリーズデータ・統計 JIPデータベース R-JIPデータベース CIPデータベース JLCPデータベース日本の政策不確実性指数産業別名目・実質実効為替レート AMU and AMU Deviation Indicators JSTAR（くらしと健康の調査） RIETI-TID 長期接続産業連関データベースマイクロデータ計量分析プロジェクト海外直接投資データベース ICPAプロジェクトリンク集コラム・寄稿コラム Special Report EBPM Report フェローに聞くフェローの連載世界の視点から特別コラム新聞・雑誌等への寄稿特別企画経済産業ジャーナル研究テーマフェロー（研究員）論文出版物イベントデータ・統計コラム・寄稿サイトマップヘルプお問い合せ閉じるホーム論文ディスカッション・ペーパー（英語）2023年度日本語タイトル：頑健で安定な政策学習に向けて：SONYにおける実装 Evaluating the Robustness of Off-Policy Evaluation 印刷執筆者成田悠輔（客員研究員）／齋藤優太（Cornell University）／宇田川拓麻（ソニーグループ株式会社）／清原明加（東京工業大学）／茂木一輝（Stanford University）／舘野啓（ソニーグループ株式会社）発行日/NO. 2023年6月 23-E-041 ダウンロード/関連リンク本文をダウンロード [PDF:1.2MB] (英語) ノンテクニカルサマリー概要過去に使用された方策（意思決定アルゴリズム）が作り出したログデータを用いて、別の新しい方策の性能を反実仮想予測することをオフ方策評価（Off-Policy Evaluation; OPE）や政策学習（Policy Leaning）という。OPEは、新しい方策アルゴリズムを実環境でいきなり用いることのリスクやコストの大きい医療・教育・自動運転・消費者サービスなどの応用場面で重宝する。 OPEの手法（推定量）は数多く提案されている。ただ、その多くが調整を要するハイパーパラメタを持つ。そのため、各応用例に合わせて適切なOPE手法を選択し、ハイパーパラメタの調整を行う必要がある。しかし現状では、信頼できる性能を示す手法を、数多くの論文を比較し特定することは困難である。なぜなら、現行の実験手順では、ある特定の性能推定対象となる方策に対して予めうまく性能推定できるようなハイパーパラメタを選択した上で、OPE手法の比較実験を行っているためである。そのため、性能推定対象の方策や使用するハイパーパラメタが異なるかもしれない別の応用場面において、各OPE手法が安定した性能を示すかどうか確かめることができない。この問題を解決するのが当研究の目的である。そのため、私たちは「解釈性の高いオフライン評価実験手順（Interpretable Evaluation for Offline Evaluation; IEOE）」を提案する。IEOEは、ハイパーパラメタの選択や性能推定の対象となる方策が変わることでOPE手法の正確さがどのように変化するかを比較し評価できる実験手順である。さらにpyIEOEというオープンソースのPythonソフトウェアを開発し、IEOEによる実験手順を規格化した。このソフトウェアを使用することで、研究者は様々なOPE手法を彼らの研究において解釈性の高い方法で比較することができる。実践者が彼らの応用場面に合わせ、それぞれに適したOPE手法を選択することもできる。私たちはIEOEの有用性を示すため、公開データセットを用いて既存の様々なOPE手法の再評価実験を行った。その結果、驚くべきことに、ハーパーパラメタの少ない単純な手法の方がより高度な手法よりも信頼性の高い結果を示すことが分かった。これは、より高度な手法は良い性能を示すために実験設定に依存した緻密なハイパーパラメタの調整を必要とし、実験設定の変化に脆弱であるためと考えられる。最後に、私たちはIEOEをSONYグループ内のEコマースの実データに適用し、実応用面でのIEOEの利用方法を示すとともにその有用性も確認した。概要（英語） Off-policy Evaluation (OPE), or offline evaluation in general, evaluates the performance of hypothetical policies leveraging only offline log data. It is particularly useful in applications where the online interaction involves high stakes and expensive settings such as precision medicine and recommender systems. Since many OPE estimators have been proposed and some of them have hyperparameters that need to be tuned, there is an emerging challenge for practitioners to select and tune OPE estimators for their specific application. Unfortunately, identifying a reliable estimator from results reported in research papers is often difficult because the current experimental procedure evaluates and compares the estimators’ performance on a narrow set of hyperparameters and evaluation policies. Therefore, it is difficult to know which estimator is safe and reliable to use. In this work, we develop Interpretable Evaluation for Offline Evaluation (IEOE), an experimental procedure to evaluate OPE estimators’ robustness to changes in hyperparameters and/or evaluation policies in an interpretable manner. Then, using the IEOE procedure, we perform extensive evaluation of a wide variety of existing estimators on the Open Bandit Dataset, a large-scale public real-world dataset for OPE. We demonstrate that our procedure can evaluate the estimators’ robustness to the hyperparameter choice, helping us avoid using unsafe estimators. Finally, we apply IEOE to real-world e-commerce platform data and demonstrate how to use our protocol in practice. 論文ディスカッション・ペーパー（日本語）ディスカッション・ペーパー（英語） 2024年度 2023年度 2022年度 2021年度 2020年度 2019年度 2018年度 2017年度 2016年度 2015年度 2014年度 2013年度 2012年度 2011年度 2010年度 2009年度 2008年度 2007年度 2006年度 2005年度 2004年度 2003年度 2002年度 2001年度ポリシー・ディスカッション・ペーパー（日本語）ポリシー・ディスカッション・ペーパー（英語）テクニカル・ペーパー（日本語）テクニカル・ペーパー（英語）ノンテクニカルサマリー英文査読付学術誌等掲載リスト Research Digest 政策分析論文調査レポート関連サービス論文検索サービス情報発信ニュースレター更新情報RSS配信 Facebook X YouTube 研究テーマプログラム (2024-2028年度) プログラム (2020-2023年度) プログラム (2016-2019年度) プログラム (2011-2015年度) 政策研究領域 (2006-2010年度) 経済産業省共同プロジェクトプロジェクトコンテンツ調査フェロー（研究員）論文ディスカッション・ペーパー（日本語）ディスカッション・ペーパー（英語）ポリシー・ディスカッション・ペーパー（日本語）ポリシー・ディスカッション・ペーパー（英語）テクニカル・ペーパー（日本語）テクニカル・ペーパー（英語）ノンテクニカルサマリー英文査読付学術誌等掲載リスト Research Digest 政策分析論文調査レポート論文検索サービス出版物 RIETIブックス（日本語） RIETIブックス（英語）通商産業政策史著者からひとこと RIETI電子書籍年次報告書・広報誌（RIETI Highlight）その他出版物（日本語）その他出版物（英語）イベントシンポジウムワークショップ BBLセミナー終了したセミナーシリーズデータ・統計 JIPデータベース R-JIPデータベース CIPデータベース JLCPデータベース日本の政策不確実性指数産業別名目・実質実効為替レート AMU and AMU Deviation Indicators JSTAR（くらしと健康の調査） RIETI-TID 長期接続産業連関データベースマイクロデータ計量分析プロジェクト海外直接投資データベース ICPAプロジェクトリンク集コラム・寄稿コラム Special Report EBPM Report フェローに聞くフェローの連載世界の視点から特別コラム新聞・雑誌等への寄稿特別企画経済産業ジャーナル RIETIについて個人情報保護ウェブアクセシビリティ方針 RIETIウェブサイトについてサイトマップヘルプお問い合わせ経済産業省独立行政法人経済産業研究所（法人番号 6010005005426）当サイト内の署名記事は、執筆者個人の責任で発表するものであり、経済産業研究所としての見解を示すものでは有りません。掲載している肩書や数値、固有名詞などは、原則として初掲載当時のものです。当サイトのコンテンツを転載される場合は、事前にご連絡ください。 "ページの先頭へ戻る

ホットニュース

ある日 3日一週間