数据科学/机器学习（DS/ML）

sohanuzzaman53 · Post by **sohanuzzaman53** » Sat Dec 21, 2024 10:46 am

作为领先的协同工作管理平台，Wrike 拥有海量数据，包括工作项内容、实体间关系、账户中的复杂流程、用户与系统的交互等。但账户越大，利用这种原始格式的数据就越困难。DS/ML 部门的目标是分析和转换用户数据，并创建数据驱动的解决方案，为用户提供有价值的见解，提高生产力和用户体验，并自动化日常重复性工作。

产品的许多部分都需要数据驱动的产品功能，因此尼泊尔电报数据1万套餐 DS/ML 部门与负责产品不同部分的团队合作，实施解决方案的 ML 部分并提供专业知识。

需要数据驱动方法的一些功能示例包括：

各种实体选择器（受让人、文件夹、提及等）中的建议，以便花费最少的时间来选择正确的实体
个性化搜索，轻松找到所需信息和实体
分析项目状况，突出风险和问题点
分析工作项的文本内容（标题、描述、评论）以提取有用信息，如可操作的子任务、字段更新、摘要
…还有更多！

该部门的工作不仅限于产品开发。我们与 DevOps 紧密合作，共同承担 MLOps 责任，确保我们的项目高效、可扩展且可靠，满足公司的需求。这包括用于自动执行数据提取、训练、比较和服务模型的灵活便捷的管道，以及一套用于提高数据科学工作效率和可靠性的工具。

技术堆栈
云：我们使用 Google 云平台作为我们的主要云解决方案 - Vertex AI 用于机器学习、BigQuery 用于存储数据、云存储用于模型和其他工件等。

编码：我们主要使用 Python 进行编码。Black、Mypy 和 Flake8 是我们用于代码稳定性和样式的主要库。我们还积极使用 Pydantic 来方便可靠地处理对象和配置。

DS/ML ：我们根据每个项目的目标和约束使用各种 DS 和 ML 工具。以下是最常用的：

用于数据整理和分析的 Pandas、NumPy、SciPy 和常见可视化库（如 Matplotlib、Seaborn、Plotly）
Scikit-learn、LightGBM 和其他用于处理表格数据的常见 ML 库
用于深度学习的 TensorFlow 和 Keras
SHAP 用于模型解释
用于跟踪实验的 MLflow
Dagster 用于建造管道
Langchain 和 OpenAI 用于生成 AI 原型设计
DevOps
DevOps 团队是公司的引擎室，加速软件交付流程。我们致力于构建和维护 CI/CD，快速、安全且频繁地将这些更新和新功能发布到用户手中。

我们是桥梁建造者，打破开发、质量保证和运营之间的隔阂，通过促进团队之间的沟通和协作让每个人都达成共识，这是我们的主要原则之一。

不断创新：我们一直在寻找更好、更快、更智能的做事方式。寻找可以自动化的流程和例程。我们的目标不仅限于维护现有系统，而是积极改善公司的发展轨迹。

为了跟上不断发展的行业步伐并满足工程需求，我们建立、开发和管理一个高度可扩展的内部开发平台，致力于自动执行重复性或重复性任务。

这些包括但不限于：

使用一组组件组合及其版本进行资源和环境配置。开发人员每天启动数百个动态暂存
每月调用约 50 万个 FE 和 BE 持续集成作业
每天向多个生产环境交付数百个 FE 和 BE 应用程序。
作为平台团队，我们的职责包括制定动态配置管理的标准，以避免脱节的脚本，因为这可能会导致大量的维护时间。

值得注意的是，除了其他职责之外，我们还坚持动态的按需 Selenium 基础设施，从而促进每天在 Kubernetes 中执行超过 60,000 次浏览器测试。处理如此规模的云基础设施需要我们密切监控我们的云支出。在此过程中，我们在监控、优化和改善云成本方面获得了丰富的经验。

此外，我们正在深入研究 MLOps 领域，这使我们能够有效地满足当前的行业需求。此外，由于产品是多语言的，我们还提供本地化自动化服务。

我们将 DORA 指标视为衡量我们成功的主要手段。根据这些指标，我们和我们的产品团队在部署频率和变更交付时间方面取得了优异的绩效。