研究開発職
2022/5/16
6:49
2023/9/22
1:51
応募要項はこちら
R&Dデータエンジニア
R&D MLOps/DevOpsエンジニア
データエンジニア 全社横断データ分析基盤構築プロジェクトリーダー候補
研究員
メール分析技術
帳票のデータ化技術
機械学習分野
自然言語処理分野
名寄せ技術
マネジャー/リーダー候補
大規模言語モデル活用
データプロダクトマネジメント
Sansan Labs
シニアリサーチャー
機械学習分野
自然言語処理分野
オフィスについて
業務環境・人事施策について
研究開発部メンバーの連載記事
第49回「SlackアプリをPythonで作成する際の備忘録」
第48回「Inf1のSageMaker推論エンドポイントをカスタムコンテナで試す」
第47回「StreamlitのアプリをNginxで複数ホスティングする」
記事一覧はこちら
第12回 株式市場とネットワーク分析 (1)
第11回 「NeurIPS'21 読み会」「AAAI'22 読み会」で発表してきました
第10回 PageRank とその周辺を探りたい
記事一覧はこちら
vol.10 Dyadic Cluster-Robust Standard Error を計算する
vol.9 ERGM で学校における Segregation を分析する
vol.8 Double Metropolis-Hastings Sampler によって ERGM のパラメーターの事後分布を推定する
記事一覧はこちら
第26回 Crowd Counting (群衆の数え上げ) を学ぶ
第25回 k-center クラスタリングを学ぶ
第24回 ソフトラベルを学ぶ
記事一覧はこちら
vol.19 趣味は人々をどうつなげるか
vol.18 マルチレベルネットワークについての簡単な解説
vol.17 ネットワークは経済発展の映し鏡か?
記事一覧はこちら
DatadogでKubernetesのNamespaceごとに通知先を振り分る
初めてのEKS Kubernetesバージョン更新を振り返る
チーム開発合宿 in 徳島県神山町
記事一覧はこちら
第四回 統計的検定で実務の施策が効果的か考える
第三回 統計的検定はゲームのガチャが教えてくれる
第二回 認識精度が十分かはガチャが教えてくれる
第一回 実務に必要な統計学はすべてゲームのガチャが教えてくれる
研究開発部の技術
第5回 ニュース配信を支える自然言語処理技術
第4回 coremltoolsを用いたCore MLモデルへの変換
第3回 名刺に特化した文字認識エンジン「NineOCR」
第2回 SansanにおけるエッジAIの活用事例
第1回 Sansanの名刺データ化技術
歴史をたどってディープラーニングを学ぶ の検索結果 - Sansan Builders Blog
Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信
https://buildersbox.corp-sansan.com/search?q=%E6%AD%B4%E5%8F%B2%E3%82%92%E3%81%9F%E3%81%A9%E3%81%A3%E3%81%A6%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%82%92%E5%AD%A6%E3%81%B6
SocSci, Radio の検索結果 - Sansan Builders Blog
研究員の前嶋です。 SocSci Radio powerd by DSOCの第2回を配信しました。 SocSciラジオとは SocSciラジオとは、Sansan DSOCの社会科学系データサイエンティストチームのM研究員が、 社会ネットワークの話題を中心に、社会科学の知識や知見をゆるっと紹介していくポッドキャストプログラムです。 sansan-dsoc.com 第2回となる今回は、「社会ネットワークはデザインできるか?」というテーマについて紹介しています。これまでの社会ネット...
https://buildersbox.corp-sansan.com/search?q=SocSci+Radio
研究開発職に関する記事
TerraformによるAirbyteを利用したデータ基盤へのデータ連携とCI/CD - Sansan Tech Blog
こんにちは!「Sansan Summer Internship 2023」でインターンをしていた野首侑作です(X, Facebook)。R&D Architectグループに1ヶ月強コミットしていました。今回のインターンで使った技術はこれまで全く触ったことがありませんしたが、チームメンバーのサポートもあり本番環境でも動か…
https://buildersbox.corp-sansan.com/entry/2023/09/20/110000
プラットフォームチームを離れ、利用者になり感じたこと - Sansan Tech Blog
研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。 名古屋にある中部支店に所属しています。 先日、一時的にML Platformチームを離れて社内向けシステムを、チームが開発・運用するアプリケーション基盤 "Circuit" に構築しました。 基盤自体の開発ではなく、初めて利用…
https://buildersbox.corp-sansan.com/entry/2023/08/24/110000
MIRU2023に参加しました - Sansan Tech Blog
こんにちは。研究開発部の本田です。2023年7月25日(火)から7月28日(金)にかけて、静岡県浜松市にて画像の認識・理解シンポジウムMIRU2023が開催されました。弊社からは今年、今井・内田・猿田・本田・李の計5名の研究員が現地に赴き、企業展示に加えてポスター発表を2件行なっています。本ブログは、発表内容も併せたM…
https://buildersbox.corp-sansan.com/entry/2023/08/17/150000
spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する - Sansan Tech Blog
はじめに 最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。
https://buildersbox.corp-sansan.com/entry/2023/07/26/110000
実務に必要な統計学はすべてゲームのガチャが教えてくれる 第三回 統計的検定はゲームのガチャが教えてくれる - Sansan Tech Blog
こんにちは、Sansanの研究開発部の糟谷勇児です。ビジネスの実務(≠研究)に必要な統計学をガチャだけで説明してみようというブログです。 初回は1連ガチャの当たり数とその確率の関係を表した1連ガチャ分布(ベルヌーイ分布)と10連などのN連ガチャの当たり数とその確率の関係を表したN連ガチャ分布(二項分布)について説明しま…
https://buildersbox.corp-sansan.com/entry/2023/06/26/110000
2023年度人工知能学会に参加しました - Sansan Tech Blog
こんにちは、研究開発部の齋藤慎一朗です。 熊本で行われた2023年度 人工知能学会全国大会 (第37回)において、企業ブースの出展、インダストリアルセッションの発表を行いました。 本ブログでは、その様子について紹介させて頂きます。
https://buildersbox.corp-sansan.com/entry/2023/06/14/110000
2023年 研究開発部 新卒技術研修 ~ 実践編 ~ - Sansan Tech Blog
こんにちは、研究開発部 Architectグループの藤岡です。 4/26(水)〜 4/28(金)で研究開発部内の技術研修を行ったので、その内容を公開します。
https://buildersbox.corp-sansan.com/entry/2023/06/01/110000
NLP2023に参加・発表しました - Sansan Tech Blog
言語処理学会年次大会(NLP)とは テーマセッション「金融・経済ドメインのための言語処理」 研究発表 聴講内容 D9-2 連続時間フラクショナル・トピックモデル D10-5 監査上の主要な検討事項 (KAM) の前例踏襲の程度に関する業種別及び監査法人別の傾向分析 おわりに 参考文献 こんにちは!研究開発部の黒木裕鷹で…
https://buildersbox.corp-sansan.com/entry/2023/04/03/110000
【22新卒 1年間の振り返り】第2回 畑違いの研究分野から研究開発組織に入っての1年を振り返ってみた - Sansan Tech Blog
はじめに こんにちは、技術本部 研究開発部 Data Analysisグループの金子です。ここ半年毎日コールドシャワーを浴びています。最近は覚悟を決めずとも浴びれるようになり、春を感じる今日この頃です。私がSansanに新卒入社してから一年が経ちました。本記事では、この一年間で取り組んだ仕事を振り返りながら、その中で学…
https://buildersbox.corp-sansan.com/entry/2023/03/28/110000
実務に必要な統計学はすべてゲームのガチャが教えてくれる 第一回 - Sansan Tech Blog
こんにちは、研究開発部のDataAnalysisグループの糟谷勇児です。今回は、統計学について書いていこうと思います。ただし今回の対象は研究員の方ではなく、統計学初心者の方を想定しています。
https://buildersbox.corp-sansan.com/entry/2023/03/22/110000
自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインス…
https://buildersbox.corp-sansan.com/entry/2023/03/06/110000
分析の再現性を担保する工夫 - Sansan Tech Blog
はじめに 技術本部 R&D の小松です。先日、一橋大学の手島健介教授より『経済セミナー』2023年2・3月号をご恵贈いただきました。 www.nippyo.co.jp 手島教授はその中で「米国経済学会データエディター制度の取り組み 再現性向上のためのreplicationチェック」を書かれています。私たちが『経済セミナ…
https://buildersbox.corp-sansan.com/entry/2023/02/27/110000
BERTopic で文書のクラスタリングを試す - Sansan Tech Blog
こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。 github.c…
https://buildersbox.corp-sansan.com/entry/2023/02/21/110000
研究開発部の名刺メーカー技術開発メンバーで京都合宿に行ってきました - Sansan Tech Blog
こんにちは、研究開発部の糟谷勇児です。 以前やっていたニューラルネット老人のブログは、CUDA沼にはまり、失踪してしまいましたので、久しぶりのブログとなります。 Sansanでは名刺メーカーという名刺作成業務をDXするサービスを展開しています。 sansan-meishi-maker.com今回はその技術開発の一環で、…
https://buildersbox.corp-sansan.com/entry/2023/02/15/110000
We joined the ASSA 2023! - Sansan Tech Blog
Hi, I'm Juan from Sansan R&D. This year started with a lot of action for us at the SocSci Group. As you may already know, we were invited to present at this year's ASSA Annual Meeting to make a presentation about the research project in which researchers Komatsu, Nishida and I, together with profess...
https://buildersbox.corp-sansan.com/entry/2023/01/25/110000
第26回 MLOps 勉強会で発表しました - Sansan Tech Blog
研究開発部 Architectグループの堤(@shu223)と申します。2022年12月7日に開催された 第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。
https://buildersbox.corp-sansan.com/entry/2022/12/25/000000
coremltoolsを用いたCore MLモデルへの変換 - Sansan Tech Blog
研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事を いくつか書いてきた のですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思います。 buildersbox.corp-sansan.com 上に載せた記事内で、スマキャプでは以下の機械学習モデルの推論処理をオンデバイスで行っている、と書きました。 名刺検出(名刺の矩形を検出) 名刺切り出し(セグメンテーション) それぞれのモデルはTensorFlowで学習しています。 さらにiOSでは、モデルをCore MLに変換することで、 大幅なパフォーマンス向上 に成功しています 。 矩形検出は300%高速化(18 fps → 55 fps) セグメンテーションも推論時間は0.01〜0.02[s] さらに、機械学習モデルの推論処理のためのCPU負荷が下がることで、UIの描画やユーザーインタラクションのレスポンスも改善されます。下図は、変換前・後のモデルを切り替えてCPU使用率を可視化したものになります。 本記事ではこの Core ML化の具体的な手順や勘所 について、詳しく解説します。 そもそもなぜCore ML化すると速くなるのか、について解説しておきます。 Core MLは、機械学習モデルをiOS, macOS, watchOS, ...に組み込むためのApple製のフレームワーク, モデルフォーマットなのですが、 iOSで機械学習モデルの推論処理を行うための選択肢はCore ML以外にもいくつかあります。 TensorFlow for iOS (TensorFlow Mobile) TensorFlow Lite PyTorch Mobile (LibTorch) ただし、 TensorFlow for
https://buildersbox.corp-sansan.com/entry/2022/11/25/110000
SansanにおけるエッジAIの活用事例 - Sansan Tech Blog
研究開発部Architectグループの堤と申します。 新任マネージャーとして 自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技術について紹介します。スマキャプでは スマホ上で機械学習モデルの推論処理をオンデバイスで行っている ...
https://buildersbox.corp-sansan.com/entry/2022/11/01/110000
Sansanの名刺データ化技術 - Sansan Tech Blog
研究開発部 Architectグループの堤と申します。今年4月より、まったくの 門外漢だった ところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。キャッチアップしたことの整理も兼ねて、これからしばらくの間、研究開発部の技術や成果物について紹介する記事を書いていきたいと思います。 ...
https://buildersbox.corp-sansan.com/entry/2022/10/27/110000
【神山通信vol.1】神山ラボで働いています - Sansan Tech Blog
こんにちは。 技術本部研究開発部の 高橋寛治 です。 徳島県名西郡神山町にあるサテライト拠点の神山ラボで10月から勤務しています。 神山ラボ勤務での日常について、ざっくばらんに紹介します。 今は徳島平野に住んでいます。 神山ラボへは車で通勤しています。 片道約50分の道のりです。通勤時間は橋など特定の場所で渋滞が発生します。 ...
https://buildersbox.corp-sansan.com/entry/2022/10/24/110000
The Economics of Blockchain Energy Consumption: A Short Review - Sansan Tech Blog
Economics Meets Data Science Hi there!. I'm Juan, from Sansan R&D's SocSci Group. Today's post is about blockchains. Cryptocurrencies and blockchain technology have been in the spotlight for the last year. About one year ago Bitcoin was recognized as a legal tender by the first nation-state. Cryptoc...
https://buildersbox.corp-sansan.com/entry/2022/09/15/110000
MIRU2022 に参加してきました - Sansan Tech Blog
こんにちは。研究開発部の内田です。 気づけばもう8月ですね。 今年の初めから某人に触発されてランニングに勤しんでいるのですが、近頃は夜中でも気温26℃を下回らない日が多く、日々のトレーニングが非常に辛いです。 誰かどうにかしてください。 暦の上では大暑にあたる 7/25-7/28 の期間、 MIRU2022 にスポンサーとして参加してきましたので、本エントリでは参加レポートをお届けします。 ...
https://buildersbox.corp-sansan.com/entry/2022/08/17/110000
hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog
技術本部 R&D研究員の前嶋です。 梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。 データが中心となるサービスのネックになるのが テストをどう書くか です。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と非常に相性が良いです。今回の記事では、 pandera と hypothesis ライブラリを活用した、データフレームに対するProperty Based Testingの方法を紹介します。 Property Based Testing(PBT) は、Haskellの QuickCheck で導入された概念だと言われています。一般的なExample Based Testing、つまり、ある値を入力したときの出力値(と状態)を検証するテストとは異なり、Property Based Testingは、入力値あるいは出力値が特定の属性(property)を満たしているかを検証します。例えば、自然数を整数倍する関数があったときに、その出力値は整数という属性を満たしている必要がありますが、入力値でさまざまなパターンで試してみて、結果が整数にならない場合はその例を返します。 契約による設計(Design by Contract, DbC)を実現するテスト手法として、名著『達人プログラマー』でも推奨されています。 hypothesis は、PythonでPBTを行うためのライブラリです。 hypothesis.readthedocs.io import hypothesis from hypothesis import strategies as st テストケースを生成する戦略(strategy)を定義します。例えば st.integers() はint型から生成を行い、 st.text() は文字列からの生成を行います。 example() メソッドを使うと、戦略に沿って具体的な例を1つ生成します。 >>> st.integers().example() 110 いくつか同時に例を生成してみます。 大小さまざまな値が生成されていることが確認できます。 ここから実際にテストをしていきます。例として、整数型の入力値を2乗する関数を作ってみます。 特定の戦略に沿ってテストケースを生成する、ということを指示するためには、テスト用の関数に @hypothesis.given デコレータを付与します。今回はテストフレームワークにpytestを、ipytest経由で使っています。 %%ipytest @ hypothesis.given(st.integers()) def test_square_int(num): assert type(square_int(num)) == int test_square_int() 実行結果 .
https://buildersbox.corp-sansan.com/entry/2022/08/10/110000
2022年度人工知能学会に参加しました! - Sansan Tech Blog
こんにちは、研究開発部の鈴木碩人です。 京都で行われた第36回人工知能学会全国大会(JSAI 2022)において、インダストリアルセッションの発表、企業ブースの出展、ポスター発表を行いました。 Sansanでは、これまでJSAI, DEIM, NLPなど多くの学会に企業ブースを出展しており、特にJSAIはサマーインターン・長期インターンの採用の場として力を入れて参加してきました。 ...
https://buildersbox.corp-sansan.com/entry/2022/07/13/110000
We Held a Global Mini-Conference! - Sansan Tech Blog
Hi there. I'm Juan, from Sansan R&D.As you may know if you follow us on social media, one important part of our work as Social Scientists at Sansan R&D is performing research. It is how we find new creative ways to understand and process the data coming from our services and turn it into new value f...
https://buildersbox.corp-sansan.com/entry/2022/07/04/110000
Economics Meets Data Science: Reproducible Research with R - Sansan Tech Blog
At Sansan R&D we have created a set of guidelines and templates to become more productive when writing reports with R. Here I share some of what we came up with.
https://buildersbox.corp-sansan.com/entry/2022/04/21/110000
入社後のホンネ[技術本部 研究開発部 Automationグループ 王 汗欽] - Sansan株式会社 | 公式メディア「mimi」
入社から少し時間が経ったメンバーに、Sansanの入社についてホンネを聞き出す当企画。今回は、応募時と入社後の業務内容のギャップが一番の不安だったと語る王に、ホンネで話してもらいました。 自分が成長し、貢献できていることを日々実感 現在どんな業務をしていますか? 営業DXサービス「Sansan」のOCR技術の精度をさら…
https://jp.corp-sansan.com/mimi/2022/09/honne-06.html
Econ Fiesta 2 を開催しました! - Sansan Builders Blog
こんにちは!DSOCの西田です。 昨年のベストバイだなと自負するスニーカーが2足あったにもかかわらず、もったいなくて箱からも出せていないのに、最近また今年のベストバイだなと思う厚底スニーカーを買ってしまいました。ちゃんと履こうと思います。 さて、今回は先日開催したEcon Fiesta 2の開催レポートをお届けします。 Econ ...
https://buildersbox.corp-sansan.com/entry/2021/03/12/115549
「ML勉強会」を開催しました - Sansan Builders Blog
こんにちは、DSOC 研究員の大垣です。 先日5/14(金)に開催した「ML勉強会」のレポートをお届けします。 sansan.connpass.com 発表者: 保坂 大樹(Sansan株式会社 DSOC 研究開発部 Data Analysis Group 研究員) 「レイアウトの情報を考慮した上で、文章から情報を抽出する方法」に関して、話をしていただきました。 ...
https://buildersbox.corp-sansan.com/entry/2021/05/25/110000
BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Builders Blog
こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 ...
https://buildersbox.corp-sansan.com/entry/2021/09/21/120000
「Sansan × atmaCup #12」を開催しました - Sansan Builders Blog
本記事は, Sansan Advent Calendar 2021 第18日目の記事です. ...
https://buildersbox.corp-sansan.com/entry/2021/12/18/110000
gokart の環境変数周りでバグを発見したので、修正 PR を出したら爆速でリリースされた話 - Sansan Builders Blog
こんにちは。技術本部 R&D 研究員の青見です。 4月で社会に出て1年になりました。 この時期は花粉症が辛くて記憶がくしゃみにかき消されがちですが、入社式のやっていきを思い出して2年目も頑張っていきます。 さて、 R&D では積極的にパイプラインツールを使って開発しようという流れになってきており、その1つとして gokart を利用しています。 gokart は Luigi という Spotify が開発している Python のパイプラインライブラリのラッパです。 特徴として機械学習利用のパイプラインに特化しており、再現性の担保という観点では非常に Luigi と比べて使いやすく感じます。 gokart と Luigi について詳しくは同じチームの髙橋が連載で紹介しているので、ぜひそちらを御覧ください。buildersbox.corp-sansan.com 今回は実際に使用していた gokart においてバグを発見したので修正の PR を出したところ、マージ後高速でリリースされ、即座に業務で利用することが出来たという話をします。 Luigi や gokart では処理の一つひとつをタスクという単位でまとめ、パイプラインとして実行します。 このタスクやパイプライン全体に対してパラメータをうまく扱う仕組みがあり、これらのパラメータを設定ファイル (.ini ファイルなど) として管理することが出来ます。 パラメータに関する設定ファイルは、 Python built-in の configparser に準拠しており、以下のようにセクション単位で機能やタスクのパラメータを管理します。 [TaskOnKart] workspace_directory=./resources local_temporary_directory=./resources/tmp [core] logging_conf_file=./conf/logging.ini [TaskA]
https://buildersbox.corp-sansan.com/entry/2022/04/07/110000
Sansan エンジニアに関する記事
Sansanをグローバルテックカンパニーへ。VPoEが語る組織と人の成長戦略とは - Sansan株式会社 | 公式メディア「mimi」
こんにちは、mimi編集部です。 今回は、Sansan株式会社のVPoE(Vice President of Engineeringの略。当社技術部門のマネジメント責任者)の西場正浩にインタビューを行いました。昨年の7月に研究開発部の副部長として入社し、今年の2月から技術部門をマネジメントするVPoEに就任した西場。 …
https://jp.corp-sansan.com/mimi/2022/03/interview-39.html
Sansan株式会社について
Sansan Tech Podcast
当社のエンジニアがお届けするPodcastです。Sansanエンジニアの技術のこと、カルチャーのこと、日々のSansanライフについて自由に語っています。
Sansan Tech Podcast
Sansan, Inc. unofficial podcast
https://soundcloud.com/sansan-tech-podcast