投稿日 2023年6月7日 | 最終更新 2023年6月7日
「日本の住所の表記の揺れ」とは
日本の住所の表記の揺れをデータで統一することは難しいです。行政の縦割りもあって公的な台帳や表記が乱立し、民間のビジネスの足かせになる例もあります。例えば、「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいます。これらを全てつなぎ合わせる仕組みを作るのは本当に大変です。また、建物名への対応についても大変です。
河野太郎議員が住所の正規化が大変って言ってる話に、住所処理開発経験のある人たちは滅茶苦茶共感してる話題がバズってるのか
— KOIZUKA Akihiko (@koizuka) June 6, 2023
ほんと住所は滅茶苦茶な世界なので、まず先に住所を全部政治が統一ルールで振り直してほしいな…w
システムを触ったことのある人なら秒でわかるはず、住所の表記揺れはすぐ解決できる問題ではないことに。全角と半角、漢数字と数字、丁目の有無な空白など、フリーフォーマットな記載から一意にするのは気の遠くなるような処理が必要なはず。 https://t.co/k6x3xa4YHt
— うめめ🔛ITエンジニンジン🐰 (@beConjuror) June 5, 2023
ジオコーディング(住所表記の揺らぎを判断しつつ正確な場所を特定すること)って物凄く難しくて、Googleが大金をつぎ込んで開発しているGoogle Maps Platformですら「それなりの割合で」外すんですよね。
— にゃんこそば🌤データ可視化 (@ShinagawaJP) June 5, 2023
マイナンバーが絡むと色眼鏡がかかるんだろうけど・・・住所照合、ほんと沼ですよ。 https://t.co/0d8QFHryfk
河野大臣「住所の表記揺れは難しい」
— Henry (@HighWiz) June 5, 2023
素人『住所の表記揺れなんて簡単😤』
表記揺れを舐めてるのかい?
それともすごく、舐めてるのかい?
死ぬほどダサいからツイ消しすべき案件。 https://t.co/kBZ0sZQKeN
こういう的外れな批判してる人に、10万行以上あって、かつ表記がバラバラなデータの整理をさせたい。まずは3日後を期限に
— 純ドメマン (@Manofpatience21) June 5, 2023
そして期限を守れない毎に、ド詰めしたい https://t.co/8KpXcvdzOY
この話をデジタル音痴と言っている人のIT音痴っぷりが面白い。名寄せ/文字認識系のシステム組んだことがある人なら多分頷きすぎて、もげた首の山ができるレベル。 https://t.co/fLaDAjIGrI
— backyarD_D (@backyarD_D) June 6, 2023
1-2-3で表記できる地域はむしろすでに整理されてるところなので、それ以前時代の地域ごとに乱雑な謎ルールの山が問題なんだよな
— KOIZUKA Akihiko (@koizuka) June 6, 2023
マイナンバーならぬ住所ナンバーでも振ってほしいですw
— metys (@metys) June 6, 2023
住所は実質ルールがないから処理は本当に大変。でも歴史的な土地の記憶としての住所も沢山あるので利便性だけで変えにくい事情なんかもたくさんある。変えたら変えたで郵便を含め宅配業界はパニックになるのが予想できるし。
— ひろゆきむら (@hiroyukimura) June 6, 2023
丁目ごとに郵便番号が振ってあったり、◎◎1丁目から7丁目が同じ郵便番号だったりw
— Toru Miyano|宮野徹|(みやのとおる)曲も聴いてね (@ToruMiyano) June 6, 2023
貴殿と同じことを考えて、昭和30~40年代に盛んに実施されたのが住居表示。
— のぎふぁむ@ねこまた (@Nogifam_necomat) June 6, 2023
…でもあまりにも強引な施行といろいろ問題噴出で、頓挫した地域多数…。結果として施行地区は登記住所と住居表示と二重に住所を持つことに(←複雑化)
いやいや普通に置換使えば一撃ではないけどある程度少ない工数でできると思うけど
— 清水ひろあき@北九州市 (@shimihiro_kitaq) June 5, 2023
麻布十番駅の住所
— とよ (@toyo_ka_14) June 6, 2023
東京都港区麻布十番四丁目4-9
東京都港区麻布10-4-4-9
/(^o^)\ https://t.co/eRJndT4ufG
シンプルに京都の住所(○○通上ル〜等)が拾えず、また記載のルールでは麻布十番や八戸が麻生10-や8戸に変換されます。
— 永久睡眠機関 (@Zzz_sleep123) June 6, 2023
ユーザ記入データだと入力ミスがない前提でも○丁目☓番△号室を□□アパート△号室とか入力されたり、末尾などに無意味な文字を付与する人がいることを考慮する必要があります。 https://t.co/Ohhp0K07bm
よりにもよって北9州市になるのに気づけないの、本当に北九州市のことを大事に思っているか極めて疑問 https://t.co/VbarXTdYee
— firedreik1(只野夢窮) (@firedreik1) June 6, 2023
データクレンジングって大変なんですよ。
— つれづれ (@g6tBbqdGZ24UWq1) June 6, 2023
例えば「石川県石川郡野々市町本町」
これを都道府県/市区町村で分けようとしても、正規表現では無理。
結局、住所データベースを用意しての突合作業後、それでも漏れたデータは個別に照合して…みたいな。
「郡/字/大字」辺りも悩みの種だったなぁ…。
あ、これTwitterで見たやつだ#完全に理解した#ダニングクルーガー効果 https://t.co/FvHIdMVQhq
— おじゃもん (@ojamonas) June 6, 2023
ちなみに自治体でバラバラな外字はExcelでどのように扱うのが正解ですか?
— SEライダー (@Sys_Rider) June 6, 2023
名寄せの奥深さとヤバさは、実際にその業務に従事した者にしかわからないですね。
— てんまにちゃん🇻🇨٩(๑ᵕᴗᵕ๑)و (@TenmaniChan) June 6, 2023
そんな小手先の置換で解決するレベルじゃないです。
みんなもうやめてあげて笑
— 意識低い系都落ち主任 (@tsys12345678) June 6, 2023
エクセルちょっとかじった程度でおれすげーの人間の戯言だと思ってスルーしてあげて笑
2時間どころか、2020年5月30日から今年先月の5月6日まで継続して開発され続け、地理情報を専門にする6人の開発者が開発を続けてgithubのissueが16個未解決なオープンソースの住所正規化ライブラリがあります。公共財です。pull requestを是非送って機能向上に貢献願います。https://t.co/0dC33XTNOJ
— Hokuto Ide (@Hokuto_Ide) June 6, 2023