研究開発職
2022/5/16
6:49
2023/2/3
1:56
応募要項はこちら
研究員
シニアリサーチャー[自然言語処理]
研究員 [マネジャー候補/リーダー候補]
シニアリサーチャー[機械学習分野]
R&D DevOps/MLOpsエンジニア
Sansan ONE(表参道)
中部支店
データエンジニア
データエンジニア[全社横断データ分析基盤構築プロジェクト リーダー候補]
R&D データエンジニア (データ分析基盤開発)
オフィスについて
業務環境・社内制度について
研究開発部メンバーの連載記事
第48回「Inf1のSageMaker推論エンドポイントをカスタムコンテナで試す」
第47回「StreamlitのアプリをNginxで複数ホスティングする」
第46回「CookiecutterでPythonプロジェクトを高速に開始する」
記事一覧はこちら
第12回 株式市場とネットワーク分析 (1)
第11回 「NeurIPS'21 読み会」「AAAI'22 読み会」で発表してきました
第10回 PageRank とその周辺を探りたい
記事一覧はこちら
vol.10 Dyadic Cluster-Robust Standard Error を計算する
vol.9 ERGM で学校における Segregation を分析する
vol.8 Double Metropolis-Hastings Sampler によって ERGM のパラメーターの事後分布を推定する
記事一覧はこちら
第26回 Crowd Counting (群衆の数え上げ) を学ぶ
第25回 k-center クラスタリングを学ぶ
第24回 ソフトラベルを学ぶ
記事一覧はこちら
vol.19 趣味は人々をどうつなげるか
vol.18 マルチレベルネットワークについての簡単な解説
vol.17 ネットワークは経済発展の映し鏡か?
記事一覧はこちら
GitHub ActionsでK8sのマニフェストを生成できるようにして開発リードタイムを改善する(前編)
GitHub ActionsでK8sのマニフェストを生成できるようにして開発リードタイムを改善する(後編)
Amazon ECSのTips
記事一覧はこちら
歴史をたどってディープラーニングを学ぶ の検索結果 - Sansan Builders Blog
Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信
https://buildersbox.corp-sansan.com/search?q=%E6%AD%B4%E5%8F%B2%E3%82%92%E3%81%9F%E3%81%A9%E3%81%A3%E3%81%A6%E3%83%87%E3%82%A3%E3%83%BC%E3%83%97%E3%83%A9%E3%83%BC%E3%83%8B%E3%83%B3%E3%82%B0%E3%82%92%E5%AD%A6%E3%81%B6
SocSci, Radio の検索結果 - Sansan Builders Blog
研究員の前嶋です。 SocSci Radio powerd by DSOCの第2回を配信しました。 SocSciラジオとは SocSciラジオとは、Sansan DSOCの社会科学系データサイエンティストチームのM研究員が、 社会ネットワークの話題を中心に、社会科学の知識や知見をゆるっと紹介していくポッドキャストプログラムです。 sansan-dsoc.com 第2回となる今回は、「社会ネットワークはデザインできるか?」というテーマについて紹介しています。これまでの社会ネット...
https://buildersbox.corp-sansan.com/search?q=SocSci+Radio
研究開発部の技術
第5回 ニュース配信を支える自然言語処理技術
第4回 coremltoolsを用いたCore MLモデルへの変換
第3回 名刺に特化した文字認識エンジン「NineOCR」
第2回 SansanにおけるエッジAIの活用事例
第1回 Sansanの名刺データ化技術
研究開発職に関する記事
We joined the ASSA 2023! - Sansan Tech Blog
Hi, I'm Juan from Sansan R&D. This year started with a lot of action for us at the SocSci Group. As you may already know, we were invited to present at this year's ASSA Annual Meeting to make a presentation about the research project in which researchers Komatsu, Nishida and I, together with profess...
https://buildersbox.corp-sansan.com/entry/2023/01/25/110000
第26回 MLOps 勉強会で発表しました - Sansan Tech Blog
研究開発部 Architectグループの堤(@shu223)と申します。2022年12月7日に開催された 第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。
https://buildersbox.corp-sansan.com/entry/2022/12/25/000000
アンプティサッカー日本代表と研究開発職を両立する25歳が語る「二つの顔を持って働く」がキャリアに与える意外な相乗効果【Sansan 金子慶也】 - エンジニアtype | 転職type
2022年4月、Sansanの研究開発部に入社した金子慶也さん。片足の長さが短い先天性の身体障害を持って生まれた彼は、Sansanのリサーチャーとして働く傍ら、アンプティサッカーの日本代表選手としても活躍する異色の経歴の持ち主。彼が研究開発職として働きながら、スポーツの世界でトップを目指す金子さんに、なぜ「二つの顔」を持って働くことを選んだのか、その理由を聞いた。
https://type.jp/et/feature/21193/
coremltoolsを用いたCore MLモデルへの変換 - Sansan Tech Blog
研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事を いくつか書いてきた のですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思います。 buildersbox.corp-sansan.com 上に載せた記事内で、スマキャプでは以下の機械学習モデルの推論処理をオンデバイスで行っている、と書きました。 名刺検出(名刺の矩形を検出) 名刺切り出し(セグメンテーション) それぞれのモデルはTensorFlowで学習しています。 さらにiOSでは、モデルをCore MLに変換することで、 大幅なパフォーマンス向上 に成功しています 。 矩形検出は300%高速化(18 fps → 55 fps) セグメンテーションも推論時間は0.01〜0.02[s] さらに、機械学習モデルの推論処理のためのCPU負荷が下がることで、UIの描画やユーザーインタラクションのレスポンスも改善されます。下図は、変換前・後のモデルを切り替えてCPU使用率を可視化したものになります。 本記事ではこの Core ML化の具体的な手順や勘所 について、詳しく解説します。 そもそもなぜCore ML化すると速くなるのか、について解説しておきます。 Core MLは、機械学習モデルをiOS, macOS, watchOS, ...に組み込むためのApple製のフレームワーク, モデルフォーマットなのですが、 iOSで機械学習モデルの推論処理を行うための選択肢はCore ML以外にもいくつかあります。 TensorFlow for iOS (TensorFlow Mobile) TensorFlow Lite PyTorch Mobile (LibTorch) ただし、 TensorFlow for
https://buildersbox.corp-sansan.com/entry/2022/11/25/110000
SansanにおけるエッジAIの活用事例 - Sansan Tech Blog
研究開発部Architectグループの堤と申します。 新任マネージャーとして 自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技術について紹介します。スマキャプでは スマホ上で機械学習モデルの推論処理をオンデバイスで行っている ...
https://buildersbox.corp-sansan.com/entry/2022/11/01/110000
Sansanの名刺データ化技術 - Sansan Tech Blog
研究開発部 Architectグループの堤と申します。今年4月より、まったくの 門外漢だった ところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。キャッチアップしたことの整理も兼ねて、これからしばらくの間、研究開発部の技術や成果物について紹介する記事を書いていきたいと思います。 ...
https://buildersbox.corp-sansan.com/entry/2022/10/27/110000
【神山通信vol.1】神山ラボで働いています - Sansan Tech Blog
こんにちは。 技術本部研究開発部の 高橋寛治 です。 徳島県名西郡神山町にあるサテライト拠点の神山ラボで10月から勤務しています。 神山ラボ勤務での日常について、ざっくばらんに紹介します。 今は徳島平野に住んでいます。 神山ラボへは車で通勤しています。 片道約50分の道のりです。通勤時間は橋など特定の場所で渋滞が発生します。 ...
https://buildersbox.corp-sansan.com/entry/2022/10/24/110000
The Economics of Blockchain Energy Consumption: A Short Review - Sansan Tech Blog
Economics Meets Data Science Hi there!. I'm Juan, from Sansan R&D's SocSci Group. Today's post is about blockchains. Cryptocurrencies and blockchain technology have been in the spotlight for the last year. About one year ago Bitcoin was recognized as a legal tender by the first nation-state. Cryptoc...
https://buildersbox.corp-sansan.com/entry/2022/09/15/110000
MIRU2022 に参加してきました - Sansan Tech Blog
こんにちは。研究開発部の内田です。 気づけばもう8月ですね。 今年の初めから某人に触発されてランニングに勤しんでいるのですが、近頃は夜中でも気温26℃を下回らない日が多く、日々のトレーニングが非常に辛いです。 誰かどうにかしてください。 暦の上では大暑にあたる 7/25-7/28 の期間、 MIRU2022 にスポンサーとして参加してきましたので、本エントリでは参加レポートをお届けします。 ...
https://buildersbox.corp-sansan.com/entry/2022/08/17/110000
hypothesis+panderaで始める、データフレームに対するProperty Based Testing - Sansan Tech Blog
技術本部 R&D研究員の前嶋です。 梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテストについての記事です。 データが中心となるサービスのネックになるのが テストをどう書くか です。というのも、データフレームは行×列の構造になっているため、入力あるいは出力値がデータフレームになるような関数が多いプログラムでは、テストケースを書くのが非常に面倒です。仕様の変更があった場合、それぞれのテスト用の疑似データに修正を加えることを考えると、より簡潔にデータフレームのバリデーションをする方法が欲しいところです。実は、データフレームのテストはProperty Based Testingという考え方と非常に相性が良いです。今回の記事では、 pandera と hypothesis ライブラリを活用した、データフレームに対するProperty Based Testingの方法を紹介します。 Property Based Testing(PBT) は、Haskellの QuickCheck で導入された概念だと言われています。一般的なExample Based Testing、つまり、ある値を入力したときの出力値(と状態)を検証するテストとは異なり、Property Based Testingは、入力値あるいは出力値が特定の属性(property)を満たしているかを検証します。例えば、自然数を整数倍する関数があったときに、その出力値は整数という属性を満たしている必要がありますが、入力値でさまざまなパターンで試してみて、結果が整数にならない場合はその例を返します。 契約による設計(Design by Contract, DbC)を実現するテスト手法として、名著『達人プログラマー』でも推奨されています。 hypothesis は、PythonでPBTを行うためのライブラリです。 hypothesis.readthedocs.io import hypothesis from hypothesis import strategies as st テストケースを生成する戦略(strategy)を定義します。例えば st.integers() はint型から生成を行い、 st.text() は文字列からの生成を行います。 example() メソッドを使うと、戦略に沿って具体的な例を1つ生成します。 >>> st.integers().example() 110 いくつか同時に例を生成してみます。 大小さまざまな値が生成されていることが確認できます。 ここから実際にテストをしていきます。例として、整数型の入力値を2乗する関数を作ってみます。 特定の戦略に沿ってテストケースを生成する、ということを指示するためには、テスト用の関数に @hypothesis.given デコレータを付与します。今回はテストフレームワークにpytestを、ipytest経由で使っています。 %%ipytest @ hypothesis.given(st.integers()) def test_square_int(num): assert type(square_int(num)) == int test_square_int() 実行結果 .
https://buildersbox.corp-sansan.com/entry/2022/08/10/110000
2022年度人工知能学会に参加しました! - Sansan Tech Blog
こんにちは、研究開発部の鈴木碩人です。 京都で行われた第36回人工知能学会全国大会(JSAI 2022)において、インダストリアルセッションの発表、企業ブースの出展、ポスター発表を行いました。 Sansanでは、これまでJSAI, DEIM, NLPなど多くの学会に企業ブースを出展しており、特にJSAIはサマーインターン・長期インターンの採用の場として力を入れて参加してきました。 ...
https://buildersbox.corp-sansan.com/entry/2022/07/13/110000
We Held a Global Mini-Conference! - Sansan Tech Blog
Hi there. I'm Juan, from Sansan R&D.As you may know if you follow us on social media, one important part of our work as Social Scientists at Sansan R&D is performing research. It is how we find new creative ways to understand and process the data coming from our services and turn it into new value f...
https://buildersbox.corp-sansan.com/entry/2022/07/04/110000
Economics Meets Data Science: Reproducible Research with R - Sansan Tech Blog
At Sansan R&D we have created a set of guidelines and templates to become more productive when writing reports with R. Here I share some of what we came up with.
https://buildersbox.corp-sansan.com/entry/2022/04/21/110000
入社後のホンネ[技術本部 研究開発部 Automationグループ 王 汗欽] | Sansan公式メディア「mimi」
入社から少し時間が経ったメンバーに、Sansanの入社についてホンネを聞き出す当企画。今回は、応募時と入社後の業務内容のギャップが一番の不安だったと語る王に、ホンネで話してもらいました。 自分が成長し、貢献できていることを日々実感 現在どんな業務をしていますか? 営業DXサービス「 Sansan 」のOCR技術の精度をさらに高め、運用コストを下げるための研究開発をやっています。 ...
https://jp.corp-sansan.com/mimi/2022/09/honne-06.html
入社のきめて[技術本部 研究開発部 Automationグループ 石井良 (2022年1月中途入社)] | Sansan公式メディア「mimi」
自己紹介をお願いします。 千葉大学大学院の情報科学科を修了した後に、新卒でSI企業に就職しました。入社後4年間は全社横断の研究開発部門にて画像認識(AI-OCR 技術)の研究開発、自然言語処理(知識グラフを用いた検索技術、汎用言語モデル BERT を活用する技術)の研究開発に従事していました。また、主に官公庁様向けに AI 導入 PoC 案件の支援を行ないました。5年目からは機械学習・AI ...
https://jp.corp-sansan.com/mimi/2022/04/into-the-sansan-engineer-02.html
入社のきめて[技術本部 研究開発部 Data Analysisグループ 藤田正悟 (2021年新卒入社)] | Sansan公式メディア「mimi」
自己紹介をお願いします。 2021年10月に新卒で入社しました。大学では情報工学について勉強し、趣味でWebアプリ制作や競技プロラミング、データ分析コンペに取り組んでいました。研究室では自然言語処理について研究し、査読付き国際学会で発表するなどしていました。大学を早期卒業したため、同期よりも半年早く入社していて、現在は自然言語処理に関連する研究開発に携わっています。 ...
https://jp.corp-sansan.com/mimi/2022/04/into-the-sansan-engineer-01.html
Econ Fiesta 2 を開催しました! - Sansan Builders Blog
こんにちは!DSOCの西田です。 昨年のベストバイだなと自負するスニーカーが2足あったにもかかわらず、もったいなくて箱からも出せていないのに、最近また今年のベストバイだなと思う厚底スニーカーを買ってしまいました。ちゃんと履こうと思います。 さて、今回は先日開催したEcon Fiesta 2の開催レポートをお届けします。 Econ ...
https://buildersbox.corp-sansan.com/entry/2021/03/12/115549
「ML勉強会」を開催しました - Sansan Builders Blog
こんにちは、DSOC 研究員の大垣です。 先日5/14(金)に開催した「ML勉強会」のレポートをお届けします。 sansan.connpass.com 発表者: 保坂 大樹(Sansan株式会社 DSOC 研究開発部 Data Analysis Group 研究員) 「レイアウトの情報を考慮した上で、文章から情報を抽出する方法」に関して、話をしていただきました。 ...
https://buildersbox.corp-sansan.com/entry/2021/05/25/110000
BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜 - Sansan Builders Blog
こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 ...
https://buildersbox.corp-sansan.com/entry/2021/09/21/120000
「Sansan × atmaCup #12」を開催しました - Sansan Builders Blog
本記事は, Sansan Advent Calendar 2021 第18日目の記事です. ...
https://buildersbox.corp-sansan.com/entry/2021/12/18/110000
gokart の環境変数周りでバグを発見したので、修正 PR を出したら爆速でリリースされた話 - Sansan Builders Blog
こんにちは。技術本部 R&D 研究員の青見です。 4月で社会に出て1年になりました。 この時期は花粉症が辛くて記憶がくしゃみにかき消されがちですが、入社式のやっていきを思い出して2年目も頑張っていきます。 さて、 R&D では積極的にパイプラインツールを使って開発しようという流れになってきており、その1つとして gokart を利用しています。 gokart は Luigi という Spotify が開発している Python のパイプラインライブラリのラッパです。 特徴として機械学習利用のパイプラインに特化しており、再現性の担保という観点では非常に Luigi と比べて使いやすく感じます。 gokart と Luigi について詳しくは同じチームの髙橋が連載で紹介しているので、ぜひそちらを御覧ください。buildersbox.corp-sansan.com 今回は実際に使用していた gokart においてバグを発見したので修正の PR を出したところ、マージ後高速でリリースされ、即座に業務で利用することが出来たという話をします。 Luigi や gokart では処理の一つひとつをタスクという単位でまとめ、パイプラインとして実行します。 このタスクやパイプライン全体に対してパラメータをうまく扱う仕組みがあり、これらのパラメータを設定ファイル (.ini ファイルなど) として管理することが出来ます。 パラメータに関する設定ファイルは、 Python built-in の configparser に準拠しており、以下のようにセクション単位で機能やタスクのパラメータを管理します。 [TaskOnKart] workspace_directory=./resources local_temporary_directory=./resources/tmp [core] logging_conf_file=./conf/logging.ini [TaskA]
https://buildersbox.corp-sansan.com/entry/2022/04/07/110000
Sansan エンジニアに関する記事
Sansanをグローバルテックカンパニーへ。VPoEが語る組織と人の成長戦略とは | Sansan公式メディア「mimi」
なぜそういった横断的な動きをしていたのでしょうか? 単純に、会社をよくしたい、みんなで大きなチャレンジをしたいというのが僕の根本的なモチベーションだからです。そのための手段は何だっていいと思っています。 ...
https://jp.corp-sansan.com/mimi/2022/03/interview-39.html
会社の成長を一段押し上げる、新しい組織体制と働き方 | Sansan公式メディア「mimi」
新体制への移行と同時に、オフィスで働くことを軸にしながらリモートワークを併用する新しい働き方も発表されました。 大 間 私たちは「出会いからイノベーションを生み出す」をミッションとし、「働き方を革新する」ことを根本的なスタンスとして発信してきた会社です。当然、自社の働き方についてもイノベーションを起こしていくべきだという前提があります。 ...
https://jp.corp-sansan.com/mimi/2021/10/interview-36.html
Sansan株式会社について
Sansan Tech Podcast
当社のエンジニアがお届けするPodcastです。Sansanエンジニアの技術のこと、カルチャーのこと、日々のSansanライフについて自由に語っています。
Sansan Tech Podcast
Sansan, Inc. unofficial podcast
https://soundcloud.com/sansan-tech-podcast