Japan Society for the Promotion of Science
Program for Constructing Data Infrastructure for the Humanities and Social Sciences
Institute of Economic Research, Hitotsubashi University

Government statistics text database

一橋大学「公的統計テキストデータベース」では,公的統計の目次,画像,機械判読可能なテキストデータを提供します.
現段階では以下の公的統計のデータを提供しています.

お知らせ

  • 2022-12-22 『内務省統計報告』の画像とテキストデータの公開を開始しました。
  • 2022-10-20 『日本統計年鑑・帝国統計年鑑』、『就業構造基本調査』の画像とテキストデータの公開を開始しました。

謝辞

  • 本データベースは、日本学術振興会の「人文学・社会科学データインフラストラクチャー構築推進事業」、および日本学術振興会・科学研究費・2023年度 研究成果公開促進費(データベース)「日本統計年鑑データベース」(課題番号:23HP8012) により作成しました。
  • 本データベースの作成・公開にあたり、総務省統計局、原資料作成機関、および公益財団法人統計情報研究開発センターのご理解・ご協力を賜りました。ここに記して謝意を表します。

利用にあたって

  • 本データベースに収録した統計表の画像は、刊行本の印刷面をそのままスキャンし作成されています。テキストデータは、統計表の数値をそのまま文字列に変換しています。
  • 本データベースの出典は、表紙等をご確認ください。
  • 本データベースを利用し成果物を公表する場合は、「総務省統計局『日本統計年鑑』(一橋大学「公的統計テキストデータベース」提供)などのように、本データベースで提供したテキストデータ等を利用したことが分かるよう、提供元である本データベースを明記してください。
  • 本データベースに収録したテキストデータは、原資料の統計表の数値をそのまま文字列に変換しており、正誤表も含め数値の更新・修正等があっても反映していません。
  • 本データベースに収録したテキストデータは一定の校正を行っていますが、原本画像の数値と完全に一致していることを保証するものではありません。また、原本に明らかな誤りがある場合も修正せずに原本通りとしています。
  • 現代においては適切ではないと思われる表現が使用されている統計表や記事がありますが、当該統計年鑑が成立した時代を表す歴史的資料として、ご理解・ご留意の上でご利用ください。
  • 一橋大学は、本データベースの内容について、一切の責任を負わないものとします。また、本データベースのサービス提供の遅延、中断又は停止により利用者が被った損害について、一橋大学は一切の責任を負わないものとします。
  • 一橋大学は、予告なしに、本データベースの運営を停止若しくは中止し、又は本データベースに掲載される情報の全部若しくは一部を変更する場合があります。

テキストデータファイルについて

  • テキストデータ(Excelファイル)は3つのシートに分かれています。
  • 「Data」シートは、原本との参照・確認を目的としたシートです。
    • 統計表に加えて、小計や総計のチェック行・列を残しています。
  • 「MachineReady」シートは、直ちに統計分析にかけられる状態にしたシートです。
    • チェック行・列は削除してあります。
    • 1行目から数行は、表頭(変数名)となります。
    • 表体(データ部分)の開始行は、「Metadata」シートの「data_start_row」行の値で取得できます。
  • 「Metadata」シートは、統計表のメタデータを記録したシートです。
    • data_start_row:表体(データ部分)の開始行を表します。
    • remark_tab:統計表原本につけられた注釈です。
    • remark_editor:テキストデータ化の過程の備考です。例えば、データの小計や総計が、原本のそれと合致しない、といったことをメモしてあります。
  • Stataでは以下の要領で、データ部分のみを読み込むことができます:
    ** テキストデータファイルの読み込み
    global sheet "統計表テキストデータファイルのパス:例:1905_t004.xlsx"
    
    ** データ開始行の取得
    import excel using "$sheet", sheet("Metadata") clear
    gen tmp = B if A == "data_start_row"
    destring tmp, replace force
    sum tmp
    global data_start_cell "A`r(min)'"
    
    ** データ部分の読み込み([MachineReady]シートの読み込み)
    import excel using "$sheet",  ///
      sheet("MachineReady") cellrange($data_start_cell) clear